Testen von Studienresultaten unter verschiedenen Hypothesen zur Ermittlung des α- und β-Fehlers.
Die Null-Hypothese H0 (Studiengesamtpopulation, "Urne") ist die vertikale Randsumme von Verum- und Referenzkollektiv (z.B. Placebo). Anhand der Summationsformel der hypergeometrischen Verteilung lässt sich im Fisher's exact Test der α-Fehler ermitteln und direkt mit dem Χ2 des Chiquadrat-Testes vergleichen.
Die Binominial-Koeffizienten dieses Signifikanztestes rekrutieren sich mathematisch aus den Kollektiven Verum und Studiengesamtpopulation ("Testung von Verum unter H0", vergl. Risikorechner bei
www.kardiolab.ch/riskcalc_JSI.html)
In den einzelnen Kolonnen sind zur groben Orientierung zusätzlich auch die Risikorate des Referenzkollektiv (R2), die Number Needed to Treat (NNT) und die relative Risikoreduktion RRR = 1-RR) gelistet.
Den β-Fehler und die Power einer Studie ermittelt man im Aequivalenztest, indem man Verum unter der Alternativ-Hypothese HA testet (dunkelgelbes Feld). Die Alternativhypothese HA formuliert man derart, dass das hypothetische Referenzkollektiv δR2 die Krankheitsrate von HO annimmt (HO-Aequivalenz). Die Power (1 minus β) ist die Sicherheitswahrscheinlichkeit, mit welcher man H0 beibehält, indem man HA ablehnt. Man beachte, dass die power kleiner ist als die Sicherheit 1-α, mit welcher man H0 im Signifikanztest ablehnt (blaue Kolonne).
In den Kolonnen HA2 und HA3 werden die Konstellationen beim Überschreiten der 95%- und 90%-Powergrenzen beschrieben. Dies kann auf 2 verschiedene Arten geschehen:
• indem man bei unveränderter Anzahl Patienten in der Studienpopulation (n) die Hypothesen HA2 und HA3 bzw. (analog dem Vorgehen bei der Formulierung von HA) die Risikorate im Referenzkollektiv (δR2) beim Überschreiten der Powergrenzen ermittelt,
• oder - das allg. übliche Vorgehen - indem man bei unverändert vorgegebenen Risikoraten in HA und δReferenz (δR2) die Patientenzahl n* beim Überschreiten der Powergrenzen ermittelt.
Im eingangs erwähnten Risikorechner werden die Risikoraten (riskrates) der Hypothesen mit PV bzw. PV_A (Prävalenz) und die Risikorate des Referenzkollektivs (δR2, "Resturne" der Alternativhypothese nach Entnahme von Verum) mit δR_A bezeichnet. Weitere Erläuterungen finden sich unter dem Funktionsbutton "Gebrauch,Glossar" des Fisher-Rechners.
CVD & Mortalität: primäre Endpunkte: beliebiger Tod, Myokardinfarkt, instabile AP
mit Rehosp, Revaskularisation und Stroke. Intensive vs moderate Lipidsenkung mit Statinen
nach akutem Koronarsyndrom. Sekundärpräventive Überlegenheit von 80 mg Atorvastatin
vs 40 mg Pravastatin. Überlegenheit einer intensivierten Statinfrühintervention innert
10 Tagen nach einem akuten Koronarsyndrom. (2004)
CVD: Kardiovaskuläre Krankheiten bei (u.U. bereits mit Statinen behandelten)
Diabetikern;
Primärprävention mit 10 mg Atorvastatin (Sortis) vs Placebo . (2004)
CVD-Sekundärprävention bei
Patienten mit stabiler CHD. Primäre Endpunkte: tödliche/nicht tödliche kardiosvaskuläre
Krankheiten (Myokardinfarkte, Hirninfarkte). Überlegenheit von hochdosierten 80 mg vs
10 mg Atorvastatin bezüglich Endpunkte und LDL-Senkung. Der angestrebe LDL-Zielwert war in der
Hochdosisgruppe 1.9 mmol/l. Die gobale Mortalität war in beiden Therapiearmen gleich .
(Orlando-Report 2005)
Beim Testen von Hypothesen mit dem Fisher's exact Test werden die Prüfarme Verum und Referenzkollektiv (Placebo oder eine andere Referenzintervention) im mathematischen Procedere zur Beschreibung signifikanter Unterschiede nicht direkt miteinander verglichen, sondern die Prüfarme werden einzeln "unter einer Hypothese" getestet. Dabei wird anhand der Summationsformel der hypergeometrischen Verteilung mittels Binomialkoeffizienten, die sich zahlenmässig aus der Hypothese und dem gewähltem Prüfarm (meist Verum) rekrutieren ("Hypothese über dem Prüfarm"), die "Übereinstimmungs"-Wahrscheinlichkeit p ermittelt. Diese Wahrscheinlichkeit p beschreibt den Anteil Kombinationsmöglichkeiten im Prüfarm an sämtlichen unter der Hypothese möglichen Kombinationen. Ist die Übereinstimmungswahrscheinlichkeit p kleiner 0.5 wird sie dem Fehler α bzw. β zugeordnet, ist sie grösser als 0.5 wird sie der Sicherheit 1-α bzw. power 1-β zugeordnet. Eingehendere Erläuterungen zum Fisher's exact Test finden sich unter
www.kardiolab.ch/riskcalc_JSI.html
Die Null-Hypothese H0 (Hypothese "kein Unterschied") ist mathematisch die Summation der Prüfarme (z.B. Verum + Placebo), also die Studiengesamtpopulation mit der populationseigenen Krankheitsprävalenz (PV) und entspricht der "Urne" des Urnenmodells, welches in der Lehre der Kombinatorik gerne zur Veranschaulichung der Problematik herangezogen wird. Eine Urne, die fortlaufend nummerierte Kugeln (Kugelindividuen) enthält, die je nach Zustand krank oder gesund schwarz oder weiss gefärbt sind. Die Stichprobe (z.B. Verumarm einer Studie) entspricht im Urnenmodell dem Endzustand des schrittweisen blinden Ziehens einer bestimmten Anzahl von Kugeln ("Ziehen ohne Zurücklegen") aus der Urne "Studienpopulation". Der Gegenarm einer Studie (z.B. Referenzkollektiv oder Placeboarm) ist der Urnenrest nach Entnahme der Stichprobe ("Resturne"). Ist die Übereinstimmungswahrscheinlichkeit p bzw. der α-Fehler klein genug die gesetzte Signifikanzschranke zu unterschreiten, so wird im Signifikanztest die Hypothese H0 "kein Unterschied" verworfen und die Alternativ-Hypothese HA angenommen. Mit der Irrtumswahrscheinlichkeit α wird also angenommen, dass die Stichprobe nicht der H0-Urne sondern der Urne HA entstamme. Ist der α-Fehler zur gross, so bezeichnet man das Resultat des Signifanztestes als "insignifikant", was noch lange nicht bedeutet, dass man die Hypothese H0 "beibehält". Die Hypothese H0 beibehalten kann man nur, indem man im Aequivalenztest die Alternativ-Hypothese ablehnt. Lernpunkte: Mit dem Signifikanztest kann man nur eine einzige Entscheidung treffen, nämlich die H0-Hypothese abzulehnen, sofern die Signifikanzschranke unterschritten wird. Diese Entscheidung nicht zu treffen ist aber noch lange keine Entscheidung zu Gunsten oder gar für die Hypothese H0 "kein Unterschied".
Die Alternativhypothese HA "Unterschied" formuliert sich je nach Fragestellung und ist nicht zum voraus determiniert, wie die H0-Hypothese. Jede vernünftige Fragestellung ist erlaubt. Eine vernünftige Fragestellung wäre z.B. wie in obiger Tabelle die Hypothese HA so zu formulieren, dass das Referenzkollektiv H0-Aequivalenz aufweist, d.h. R2 die Grösse der H0-Prävalenz annimmt. Der β-Fehler und die power 1-β werden analog dem α-Fehler bestimmt. Unterschreitet der β-Fehler die "Aequivalenz"-Schranke (wird üblicherweise 2-4 mal höher angesetzt als die Siginifikanzschranke) wird die H0-Hypothese im Aequivalenztest beibehalten, indem man die Alternativhypothese HA "Unterschied" mit einer Irrtumswahrscheinlichkeit β ablehnt. Lernpunkte: Spricht man von β-Fehlern und power, so ist immer auch gleichzeitig anzugeben unter welcher Alternativhypothese HA diese eruiert wurden. Die Entscheidung "kein Unterschied" oder "aequivalent" gilt also immer nur bezüglich eines zuvor klar formulierten Unterschiedes. Spricht man von geringer power einer Studie und meint damit lediglich Fallzahl der Studienpopulation, so ist dies streng genommen ein unzulässig verkürzter Sprachgebrauch, da die Alternativhypothese mit der Fallzahl alleine nicht ausformuliert ist.
Prinzipiell wird also beim Testen von Hypothesen mit Signifikanz- und Aequivalenz-Testen die Hypothese H0 "kein Unterschied" höher gewichtet als die Hypothese HA "Unterschied". Ein Unterschied wird eigentlich nur in Extremfällen angenommen. 1 ist gleich 3, sofern 3 nicht eher 4 ist.
Die "Wahrheit", die keiner kennt, wird schlussendlich mit (mathematisch in der Unendlichkeit berechneten) Irrtumswahrscheinlichkeiten von Gegenhypothesen umschrieben.
Dr. med. Franz Paul Ackermann-Ball
Spezialarzt FMH für Innere Medizin
Ziegelfeldstr. 30 , CH-4600 OLTEN