HypothesenTests

Hypothesen testen

Testen von Studienresultaten unter verschiedenen Hypothesen zur Ermittlung des α- und β-Fehlers.

Die Null-Hypothese H0 (Studiengesamtpopulation, "Urne") ist die vertikale Randsumme von Verum- und Referenzkollektiv (z.B. Placebo). Anhand der Summationsformel der hypergeometrischen Verteilung lässt sich im Fisher's exact Test der α-Fehler ermitteln und direkt mit dem Χ² des Chiquadrat-Testes vergleichen.
Die Binominial-Koeffizienten dieses Signifikanztestes rekrutieren sich mathematisch aus den Kollektiven Verum und Studiengesamtpopulation ("Testung von Verum unter H0", vergl. Risikorechner bei www.kardiolab.ch/riskcalc_JSI.html)
In den einzelnen Kolonnen sind zur groben Orientierung zusätzlich auch die Risikorate des Referenzkollektiv (R2), die Number Needed to Treat (NNT) und die relative Risikoreduktion RRR = 1-RR) gelistet.
Den β-Fehler und die Power einer Studie ermittelt man im Aequivalenztest, indem man Verum unter der Alternativ-Hypothese HA testet (dunkelgelbes Feld). Die Alternativhypothese HA formuliert man derart, dass das hypothetische Referenzkollektiv δR2 die Krankheitsrate von HO annimmt (HO-Aequivalenz). Die Power (1 minus β) ist die Sicherheitswahrscheinlichkeit, mit welcher man H0 beibehält, indem man HA ablehnt. Man beachte, dass die power kleiner ist als die Sicherheit 1-α, mit welcher man H0 im Signifikanztest ablehnt (blaue Kolonne).
In den Kolonnen HA2 und HA3 werden die Konstellationen beim Überschreiten der 95%- und 90%-Powergrenzen beschrieben. Dies kann auf 2 verschiedene Arten geschehen:
• indem man bei unveränderter Anzahl Patienten in der Studienpopulation (n) die Hypothesen HA2 und HA3 bzw. (analog dem Vorgehen bei der Formulierung von HA) die Risikorate im Referenzkollektiv (δR2) beim Überschreiten der Powergrenzen ermittelt,
• oder - das allg. übliche Vorgehen - indem man bei unverändert vorgegebenen Risikoraten in HA und δReferenz (δR2) die Patientenzahl n* beim Überschreiten der Powergrenzen ermittelt.

Im eingangs erwähnten Risikorechner werden die Risikoraten (riskrates) der Hypothesen mit PV bzw. PV_A (Prävalenz) und die Risikorate des Referenzkollektivs (δR2, "Resturne" der Alternativhypothese nach Entnahme von Verum) mit δR_A bezeichnet. Weitere Erläuterungen finden sich unter dem Funktionsbutton "Gebrauch,Glossar" des Fisher-Rechners.

123456789012345	12345678901234567	12345678901234567	12345678901234567	12345678901234567	123456789112345678921234567893123456789412345678951
Studie riskrates (1)Verum (2)Referenz	H₀ Referenzrate R2 Χ² α-Fehler 1-α(Sicherheit) NNT RRR=1-(R1/R2) n	H_A Referenzrate δR2 Χ² β-Fehler power NNT δRRR=1-(R1/δR2) n	H_A2 Referenzrate δR2 Χ² β-Fehler power > 95% NNT δRRR=1-(R1/δR2) n*	H_A3 Referenzrate δR2 Χ² β-Fehler power > 90% NNT δRRR=1-(R1/δR2) n*	Endpoints
PROVE-IT (1) 470/2099 (2) 543/2063	543/2063=0.2632 8.5108 Χ² 0.001762 α 0.998238 1-α 25.45 NNT 0.1493 RRR 4162 n	502/2063=0.2433 2.0847 Χ² 0.074390 β 0.925610 power 51.50 NNT 0.0798 δRRR 4162 n	508/2063=0.2462 2.7623 Χ² 0.048250 β 0.952750 power 44.79 NNT 0.0907 δRRR 5386 n*	498/2063=0.2414 1.6845 Χ² 0.097164 β 0.902836 power 57.21 NNT 0.0724 δRRR 3321 n*	CVD & Mortalität: primäre Endpunkte: beliebiger Tod, Myokardinfarkt, instabile AP mit Rehosp, Revaskularisation und Stroke. Intensive vs moderate Lipidsenkung mit Statinen nach akutem Koronarsyndrom. Sekundärpräventive Überlegenheit von 80 mg Atorvastatin vs 40 mg Pravastatin. Überlegenheit einer intensivierten Statinfrühintervention innert 10 Tagen nach einem akuten Koronarsyndrom. (2004)
CARDS (1) 83/1345 (2) 127/1283	127/1283=0.0990 11.9082 Χ² 0.000272 α 0.999728 1-α 26.83 NNT 0.3766 RRR 2628 n	103/1283=0.0803 3.1666 Χ² 0.0375 β 0.9625 power 53.85 NNT 0.2313 δRRR 2628 n	102/1283=0.0795 2.9100 Χ² 0.043990 β 0.956010 power 56.21 NNT 0.2238 δRRR 2286 n*	97/1283=0.0756 1.7750 Χ² 0.091384 β 0.908616 power 71.97 NNT 0.1838 δRRR 1341 n*	CVD: Kardiovaskuläre Krankheiten bei (u.U. bereits mit Statinen behandelten) Diabetikern; Primärprävention mit 10 mg Atorvastatin (Sortis) vs Placebo . (2004)
ASCOT-LLA_CHD (1) 100/5168 (2) 154/5137	154/5137=0.0230 11.6679 Χ² 0.000305 α 0.999695 1-α 94.08 NNT 0.3545 RRR 10305 n	126/5137=0.0245 2.9834 Χ² 0.041964 β 0.958036 power 193.12 NNT 0.2111 δRRR 10305 n	125/5137=0.0243 2.7669 Χ² 0.048024 β 0.951976 power 200.67 NNT 0.2048 δRRR 9373 n*	120/5137=0.0234 1.7956 Χ² 0.090071 β 0.909929 power 249.37 NNT 0.1717 δRRR 5495 n*	CHD: Myokardinfarkte bei Hypertonikern; Primärprävention mit 10 mg Atorvastatin (Sortis) vs Placebo . (2003)
ASCOT-LLA CVD (1) 389/5168 (2) 486/5137	486/5137=0.0946 12.1498 Χ² 0.000243 α 0.999757 1-α 51.71 NNT 0.2044 RRR 10305 n	436/5137=0.0849 3.0970 Χ² 0.039196 β 0.960804 power 104.13 NNT 0.1131 δRRR 10305 n	433/5137=0.0843 2.7336 Χ² 0.049109 β 0.950891 power 110.87 NNT 0.1070 δRRR 9113 n*	423/5137=0.0823 1.6794 Χ² 0.097495 β 0.902505 power 141.39 NNT 0.0859 δRRR 5715 n*	CVD: Kardiovaskuläre Events insgesamt (sekundärer Endpunkt) bei Hypertonikern; Primärprävention mit 10 mg Sortis vs Placebo . (2003)
TNT (Sortis) (1) 434/4995 (2) 548/5006	548/5006=0.1095 14.1445 Χ² 0.000083 α 0.999917 1-α 44.28 NNT 0.2063 RRR 10001 n	491/5006=0.0981 3.6013 Χ² 0.028841 β 0.971159 power 89.32 NNT 0.1141 δRRR 10001 n	484/5006=0.0967 2.7624 Χ² 0.048229 β 0.951771 power 102.07 NNT 0.1013 δRRR 7693 n*	473/5006=0.0945 1.6601 Χ² 0.098781 β 0.901219 power 131.58 NNT 0.0804 δRRR 4904 n*	CVD-Sekundärprävention bei Patienten mit stabiler CHD. Primäre Endpunkte: tödliche/nicht tödliche kardiosvaskuläre Krankheiten (Myokardinfarkte, Hirninfarkte). Überlegenheit von hochdosierten 80 mg vs 10 mg Atorvastatin bezüglich Endpunkte und LDL-Senkung. Der angestrebe LDL-Zielwert war in der Hochdosisgruppe 1.9 mmol/l. Die gobale Mortalität war in beiden Therapiearmen gleich . (Orlando-Report 2005)
(1) 105/500 (2) 150/500	150/500=0.3000 10.1908 Χ² 0.000692 α 0.999308 1-α 11.11 NNT 0.3000 RRR 1000 n	127/500=0.2540 2.4751 Χ² 0.057773 β 0.942227 power 22.73 NNT 0.1732 δRRR 1000 n	128/500=0.2560 2.7083 Χ² 0.049852 β 0.950148 power 21.74 NNT 0.1797 δRRR 1115 n*	124/500=0.248 1.8351 Χ² 0.087725 β 0.912275 power 26.32 NNT 0.1532 δRRR 714 n*	Studie XY

DISKUSSION :

Beim Testen von Hypothesen mit dem Fisher's exact Test werden die Prüfarme Verum und Referenzkollektiv (Placebo oder eine andere Referenzintervention) im mathematischen Procedere zur Beschreibung signifikanter Unterschiede nicht direkt miteinander verglichen, sondern die Prüfarme werden einzeln "unter einer Hypothese" getestet. Dabei wird anhand der Summationsformel der hypergeometrischen Verteilung mittels Binomialkoeffizienten, die sich zahlenmässig aus der Hypothese und dem gewähltem Prüfarm (meist Verum) rekrutieren ("Hypothese über dem Prüfarm"), die "Übereinstimmungs"-Wahrscheinlichkeit p ermittelt. Diese Wahrscheinlichkeit p beschreibt den Anteil Kombinationsmöglichkeiten im Prüfarm an sämtlichen unter der Hypothese möglichen Kombinationen. Ist die Übereinstimmungswahrscheinlichkeit p kleiner 0.5 wird sie dem Fehler α bzw. β zugeordnet, ist sie grösser als 0.5 wird sie der Sicherheit 1-α bzw. power 1-β zugeordnet. Eingehendere Erläuterungen zum Fisher's exact Test finden sich unter www.kardiolab.ch/riskcalc_JSI.html
Die Null-Hypothese H0 (Hypothese "kein Unterschied") ist mathematisch die Summation der Prüfarme (z.B. Verum + Placebo), also die Studiengesamtpopulation mit der populationseigenen Krankheitsprävalenz (PV) und entspricht der "Urne" des Urnenmodells, welches in der Lehre der Kombinatorik gerne zur Veranschaulichung der Problematik herangezogen wird. Eine Urne, die fortlaufend nummerierte Kugeln (Kugelindividuen) enthält, die je nach Zustand krank oder gesund schwarz oder weiss gefärbt sind. Die Stichprobe (z.B. Verumarm einer Studie) entspricht im Urnenmodell dem Endzustand des schrittweisen blinden Ziehens einer bestimmten Anzahl von Kugeln ("Ziehen ohne Zurücklegen") aus der Urne "Studienpopulation". Der Gegenarm einer Studie (z.B. Referenzkollektiv oder Placeboarm) ist der Urnenrest nach Entnahme der Stichprobe ("Resturne"). Ist die Übereinstimmungswahrscheinlichkeit p bzw. der α-Fehler klein genug die gesetzte Signifikanzschranke zu unterschreiten, so wird im Signifikanztest die Hypothese H0 "kein Unterschied" verworfen und die Alternativ-Hypothese HA angenommen. Mit der Irrtumswahrscheinlichkeit α wird also angenommen, dass die Stichprobe nicht der H0-Urne sondern der Urne HA entstamme. Ist der α-Fehler zur gross, so bezeichnet man das Resultat des Signifanztestes als "insignifikant", was noch lange nicht bedeutet, dass man die Hypothese H0 "beibehält". Die Hypothese H0 beibehalten kann man nur, indem man im Aequivalenztest die Alternativ-Hypothese ablehnt.
Lernpunkte: Mit dem Signifikanztest kann man nur eine einzige Entscheidung treffen, nämlich die H0-Hypothese abzulehnen, sofern die Signifikanzschranke unterschritten wird. Diese Entscheidung nicht zu treffen ist aber noch lange keine Entscheidung zu Gunsten oder gar für die Hypothese H0 "kein Unterschied".
Die Alternativhypothese HA "Unterschied" formuliert sich je nach Fragestellung und ist nicht zum voraus determiniert, wie die H0-Hypothese. Jede vernünftige Fragestellung ist erlaubt. Eine vernünftige Fragestellung wäre z.B. wie in obiger Tabelle die Hypothese HA so zu formulieren, dass das Referenzkollektiv H0-Aequivalenz aufweist, d.h. R2 die Grösse der H0-Prävalenz annimmt. Der β-Fehler und die power 1-β werden analog dem α-Fehler bestimmt. Unterschreitet der β-Fehler die "Aequivalenz"-Schranke (wird üblicherweise 2-4 mal höher angesetzt als die Siginifikanzschranke) wird die H0-Hypothese im Aequivalenztest beibehalten, indem man die Alternativhypothese HA "Unterschied" mit einer Irrtumswahrscheinlichkeit β ablehnt.
Lernpunkte: Spricht man von β-Fehlern und power, so ist immer auch gleichzeitig anzugeben unter welcher Alternativhypothese HA diese eruiert wurden. Die Entscheidung "kein Unterschied" oder "aequivalent" gilt also immer nur bezüglich eines zuvor klar formulierten Unterschiedes. Spricht man von geringer power einer Studie und meint damit lediglich Fallzahl der Studienpopulation, so ist dies streng genommen ein unzulässig verkürzter Sprachgebrauch, da die Alternativhypothese mit der Fallzahl alleine nicht ausformuliert ist.
Prinzipiell wird also beim Testen von Hypothesen mit Signifikanz- und Aequivalenz-Testen die Hypothese H0 "kein Unterschied" höher gewichtet als die Hypothese HA "Unterschied". Ein Unterschied wird eigentlich nur in Extremfällen angenommen. 1 ist gleich 3, sofern 3 nicht eher 4 ist.
Die "Wahrheit", die keiner kennt, wird schlussendlich mit (mathematisch in der Unendlichkeit berechneten) Irrtumswahrscheinlichkeiten von Gegenhypothesen umschrieben.

Dr. med. Franz Paul Ackermann-Ball
Spezialarzt FMH für Innere Medizin
Ziegelfeldstr. 30 , CH-4600 OLTEN

4.10.2005