Hypothesen testen
Testen von Studienresultaten unter verschiedenen Hypothesen zur Ermittlung des α- und β-Fehlers.

Die Null-Hypothese H0 (Studiengesamtpopulation, "Urne") ist die vertikale Randsumme von Verum- und Referenzkollektiv (z.B. Placebo). Anhand der Summationsformel der hypergeometrischen Verteilung lässt sich im Fisher's exact Test der α-Fehler ermitteln und direkt mit dem Χ2 des Chiquadrat-Testes vergleichen.
Die Binominial-Koeffizienten dieses Signifikanztestes rekrutieren sich mathematisch aus den Kollektiven Verum und Studiengesamtpopulation ("Testung von Verum unter H0", vergl. Risikorechner bei www.kardiolab.ch/riskcalc_JSI.html)
In den einzelnen Kolonnen sind zur groben Orientierung zusätzlich auch die Risikorate des Referenzkollektiv (R2), die Number Needed to Treat (NNT) und die relative Risikoreduktion RRR = 1-RR) gelistet.
Den β-Fehler und die Power einer Studie ermittelt man im Aequivalenztest, indem man Verum unter der Alternativ-Hypothese HA testet (dunkelgelbes Feld). Die Alternativhypothese HA formuliert man derart, dass das hypothetische Referenzkollektiv δR2 die Krankheitsrate von HO annimmt (HO-Aequivalenz). Die Power (1 minus β) ist die Sicherheitswahrscheinlichkeit, mit welcher man H0 beibehält, indem man HA ablehnt. Man beachte, dass die power kleiner ist als die Sicherheit 1-α, mit welcher man H0 im Signifikanztest ablehnt (blaue Kolonne).
In den Kolonnen HA2 und HA3 werden die Konstellationen beim Überschreiten der 95%- und 90%-Powergrenzen beschrieben. Dies kann auf 2 verschiedene Arten geschehen:
• indem man bei unveränderter Anzahl Patienten in der Studienpopulation (n) die Hypothesen HA2 und HA3 bzw. (analog dem Vorgehen bei der Formulierung von HA) die Risikorate im Referenzkollektiv (δR2) beim Überschreiten der Powergrenzen ermittelt,
• oder - das allg. übliche Vorgehen - indem man bei unverändert vorgegebenen Risikoraten in HA und δReferenz (δR2) die Patientenzahl n* beim Überschreiten der Powergrenzen ermittelt.

Im eingangs erwähnten Risikorechner werden die Risikoraten (riskrates) der Hypothesen mit PV bzw. PV_A (Prävalenz) und die Risikorate des Referenzkollektivs (δR2, "Resturne" der Alternativhypothese nach Entnahme von Verum) mit δR_A bezeichnet. Weitere Erläuterungen finden sich unter dem Funktionsbutton "Gebrauch,Glossar" des Fisher-Rechners.
123456789012345 12345678901234567 12345678901234567 12345678901234567 12345678901234567 123456789112345678921234567893123456789412345678951
Studie riskrates
(1)Verum
(2)Referenz
H0
Referenzrate R2
Χ2
α-Fehler
1-α(Sicherheit)
NNT
RRR=1-(R1/R2)
n
HA
Referenzrate δR2
Χ2
β-Fehler
power
NNT
δRRR=1-(R1/δR2)
n
HA2
Referenzrate δR2
Χ2
β-Fehler
power > 95%
NNT
δRRR=1-(R1/δR2)
n*
HA3
Referenzrate δR2
Χ2
β-Fehler
power > 90%
NNT
δRRR=1-(R1/δR2)
n*
Endpoints     
PROVE-IT
(1) 470/2099
(2) 543/2063
543/2063=0.2632
8.5108 Χ2
0.001762 α
0.998238 1-α
25.45 NNT
0.1493 RRR
4162 n
502/2063=0.2433
2.0847 Χ2
0.074390 β
0.925610 power
51.50 NNT
0.0798 δRRR
4162 n
508/2063=0.2462
2.7623 Χ2
0.048250 β
0.952750 power
44.79 NNT
0.0907 δRRR
5386 n*
498/2063=0.2414
1.6845 Χ2
0.097164 β
0.902836 power
57.21 NNT
0.0724 δRRR
3321 n*
CVD & Mortalität: primäre Endpunkte: beliebiger Tod, Myokardinfarkt, instabile AP mit Rehosp, Revaskularisation und Stroke. Intensive vs moderate Lipidsenkung mit Statinen nach akutem Koronarsyndrom. Sekundärpräventive Überlegenheit von 80 mg Atorvastatin vs 40 mg Pravastatin. Überlegenheit einer intensivierten Statinfrühintervention innert 10 Tagen nach einem akuten Koronarsyndrom. (2004)
CARDS
(1) 83/1345
(2) 127/1283
127/1283=0.0990
11.9082 Χ2
0.000272 α
0.999728 1-α
26.83 NNT
0.3766 RRR
2628 n
103/1283=0.0803
3.1666 Χ2
0.0375 β
0.9625 power
53.85 NNT
0.2313 δRRR
2628 n
102/1283=0.0795
2.9100 Χ2
0.043990 β
0.956010 power
56.21 NNT
0.2238 δRRR
2286 n*
97/1283=0.0756
1.7750 Χ2
0.091384 β
0.908616 power
71.97 NNT
0.1838 δRRR
1341 n*
CVD: Kardiovaskuläre Krankheiten bei (u.U. bereits mit Statinen behandelten) Diabetikern; Primärprävention mit 10 mg Atorvastatin (Sortis) vs Placebo . (2004)
ASCOT-LLA_CHD
(1) 100/5168
(2) 154/5137
154/5137=0.0230
11.6679 Χ2
0.000305 α
0.999695 1-α
94.08 NNT
0.3545 RRR
10305 n
126/5137=0.0245
2.9834 Χ2
0.041964 β
0.958036 power
193.12 NNT
0.2111 δRRR
10305 n
125/5137=0.0243
2.7669 Χ2
0.048024 β
0.951976 power
200.67 NNT
0.2048 δRRR
9373 n*
120/5137=0.0234
1.7956 Χ2
0.090071 β
0.909929 power
249.37 NNT
0.1717 δRRR
5495 n*
CHD: Myokardinfarkte bei Hypertonikern; Primärprävention mit 10 mg Atorvastatin (Sortis) vs Placebo . (2003)
ASCOT-LLA CVD
(1) 389/5168
(2) 486/5137
486/5137=0.0946
12.1498 Χ2
0.000243 α
0.999757 1-α
51.71 NNT
0.2044 RRR
10305 n
436/5137=0.0849
3.0970 Χ2
0.039196 β
0.960804 power
104.13 NNT
0.1131 δRRR
10305 n
433/5137=0.0843
2.7336 Χ2
0.049109 β
0.950891 power
110.87 NNT
0.1070 δRRR
9113 n*
423/5137=0.0823
1.6794 Χ2
0.097495 β
0.902505 power
141.39 NNT
0.0859 δRRR
5715 n*
CVD: Kardiovaskuläre Events insgesamt (sekundärer Endpunkt) bei Hypertonikern; Primärprävention mit 10 mg Sortis vs Placebo . (2003)
TNT (Sortis)
(1) 434/4995
(2) 548/5006
548/5006=0.1095
14.1445 Χ2
0.000083 α
0.999917 1-α
44.28 NNT
0.2063 RRR
10001 n
491/5006=0.0981
3.6013 Χ2
0.028841 β
0.971159 power
89.32 NNT
0.1141 δRRR
10001 n
484/5006=0.0967
2.7624 Χ2
0.048229 β
0.951771 power
102.07 NNT
0.1013 δRRR
7693 n*
473/5006=0.0945
1.6601 Χ2
0.098781 β
0.901219 power
131.58 NNT
0.0804 δRRR
4904 n*
CVD-Sekundärprävention bei Patienten mit stabiler CHD. Primäre Endpunkte: tödliche/nicht tödliche kardiosvaskuläre Krankheiten (Myokardinfarkte, Hirninfarkte). Überlegenheit von hochdosierten 80 mg vs 10 mg Atorvastatin bezüglich Endpunkte und LDL-Senkung. Der angestrebe LDL-Zielwert war in der Hochdosisgruppe 1.9 mmol/l. Die gobale Mortalität war in beiden Therapiearmen gleich . (Orlando-Report 2005)
(1) 105/500
(2) 150/500
150/500=0.3000
10.1908 Χ2
0.000692 α
0.999308 1-α
11.11 NNT
0.3000 RRR
1000 n
127/500=0.2540
2.4751 Χ2
0.057773 β
0.942227 power
22.73 NNT
0.1732 δRRR
1000 n
128/500=0.2560
2.7083 Χ2
0.049852 β
0.950148 power
21.74 NNT
0.1797 δRRR
1115 n*
124/500=0.248
1.8351 Χ2
0.087725 β
0.912275 power
26.32 NNT
0.1532 δRRR
714 n*
Studie XY


DISKUSSION :

Beim Testen von Hypothesen mit dem Fisher's exact Test werden die Prüfarme Verum und Referenzkollektiv (Placebo oder eine andere Referenzintervention) im mathematischen Procedere zur Beschreibung signifikanter Unterschiede nicht direkt miteinander verglichen, sondern die Prüfarme werden einzeln "unter einer Hypothese" getestet. Dabei wird anhand der Summationsformel der hypergeometrischen Verteilung mittels Binomialkoeffizienten, die sich zahlenmässig aus der Hypothese und dem gewähltem Prüfarm (meist Verum) rekrutieren ("Hypothese über dem Prüfarm"), die "Übereinstimmungs"-Wahrscheinlichkeit p ermittelt. Diese Wahrscheinlichkeit p beschreibt den Anteil Kombinationsmöglichkeiten im Prüfarm an sämtlichen unter der Hypothese möglichen Kombinationen. Ist die Übereinstimmungswahrscheinlichkeit p kleiner 0.5 wird sie dem Fehler α bzw. β zugeordnet, ist sie grösser als 0.5 wird sie der Sicherheit 1-α bzw. power 1-β zugeordnet. Eingehendere Erläuterungen zum Fisher's exact Test finden sich unter www.kardiolab.ch/riskcalc_JSI.html
Die Null-Hypothese H0 (Hypothese "kein Unterschied") ist mathematisch die Summation der Prüfarme (z.B. Verum + Placebo), also die Studiengesamtpopulation mit der populationseigenen Krankheitsprävalenz (PV) und entspricht der "Urne" des Urnenmodells, welches in der Lehre der Kombinatorik gerne zur Veranschaulichung der Problematik herangezogen wird. Eine Urne, die fortlaufend nummerierte Kugeln (Kugelindividuen) enthält, die je nach Zustand krank oder gesund schwarz oder weiss gefärbt sind. Die Stichprobe (z.B. Verumarm einer Studie) entspricht im Urnenmodell dem Endzustand des schrittweisen blinden Ziehens einer bestimmten Anzahl von Kugeln ("Ziehen ohne Zurücklegen") aus der Urne "Studienpopulation". Der Gegenarm einer Studie (z.B. Referenzkollektiv oder Placeboarm) ist der Urnenrest nach Entnahme der Stichprobe ("Resturne"). Ist die Übereinstimmungswahrscheinlichkeit p bzw. der α-Fehler klein genug die gesetzte Signifikanzschranke zu unterschreiten, so wird im Signifikanztest die Hypothese H0 "kein Unterschied" verworfen und die Alternativ-Hypothese HA angenommen. Mit der Irrtumswahrscheinlichkeit α wird also angenommen, dass die Stichprobe nicht der H0-Urne sondern der Urne HA entstamme. Ist der α-Fehler zur gross, so bezeichnet man das Resultat des Signifanztestes als "insignifikant", was noch lange nicht bedeutet, dass man die Hypothese H0 "beibehält". Die Hypothese H0 beibehalten kann man nur, indem man im Aequivalenztest die Alternativ-Hypothese ablehnt.
Lernpunkte: Mit dem Signifikanztest kann man nur eine einzige Entscheidung treffen, nämlich die H0-Hypothese abzulehnen, sofern die Signifikanzschranke unterschritten wird. Diese Entscheidung nicht zu treffen ist aber noch lange keine Entscheidung zu Gunsten oder gar für die Hypothese H0 "kein Unterschied".
Die Alternativhypothese HA "Unterschied" formuliert sich je nach Fragestellung und ist nicht zum voraus determiniert, wie die H0-Hypothese. Jede vernünftige Fragestellung ist erlaubt. Eine vernünftige Fragestellung wäre z.B. wie in obiger Tabelle die Hypothese HA so zu formulieren, dass das Referenzkollektiv H0-Aequivalenz aufweist, d.h. R2 die Grösse der H0-Prävalenz annimmt. Der β-Fehler und die power 1-β werden analog dem α-Fehler bestimmt. Unterschreitet der β-Fehler die "Aequivalenz"-Schranke (wird üblicherweise 2-4 mal höher angesetzt als die Siginifikanzschranke) wird die H0-Hypothese im Aequivalenztest beibehalten, indem man die Alternativhypothese HA "Unterschied" mit einer Irrtumswahrscheinlichkeit β ablehnt.
Lernpunkte: Spricht man von β-Fehlern und power, so ist immer auch gleichzeitig anzugeben unter welcher Alternativhypothese HA diese eruiert wurden. Die Entscheidung "kein Unterschied" oder "aequivalent" gilt also immer nur bezüglich eines zuvor klar formulierten Unterschiedes. Spricht man von geringer power einer Studie und meint damit lediglich Fallzahl der Studienpopulation, so ist dies streng genommen ein unzulässig verkürzter Sprachgebrauch, da die Alternativhypothese mit der Fallzahl alleine nicht ausformuliert ist.
Prinzipiell wird also beim Testen von Hypothesen mit Signifikanz- und Aequivalenz-Testen die Hypothese H0 "kein Unterschied" höher gewichtet als die Hypothese HA "Unterschied". Ein Unterschied wird eigentlich nur in Extremfällen angenommen. 1 ist gleich 3, sofern 3 nicht eher 4 ist.
Die "Wahrheit", die keiner kennt, wird schlussendlich mit (mathematisch in der Unendlichkeit berechneten) Irrtumswahrscheinlichkeiten von Gegenhypothesen umschrieben.


Dr. med. Franz Paul Ackermann-Ball
Spezialarzt FMH für Innere Medizin
Ziegelfeldstr. 30 , CH-4600 OLTEN



4.10.2005