Literaturbewertung

Einführung

Einen ersten Anhalt in der Evidenzbeurteilung leisten Systematiken zur Evidenzklassifikation. So bieten je nach Art der Fragestellung bestimmte Studiendesigns besonders gute Voraussetzungen, systematische Fehler und somit verzerrte Ergebnisse zu vermeiden. Jedoch sollte zusätzlich beurteilt werden, inwieweit eine Studie diese Anforderung tatsächlich erfüllt.

Die Beurteilung einer Studie lässt sich systematisieren, indem drei wesentliche Aspekte nacheinander bearbeitet werden: Gültigkeit (interne Validität), Größe und Präzision sowie Übertragbarkeit und Anwendbarkeit der Ergebnisse. Diese dreiteilige Untersuchungsstruktur lässt sich grundsätzlich auf jede patient*innenorientierte Studie anwenden. Unterschiede in den jeweiligen Unterkriterien ergeben sich aus der Art der Fragestellung.

Eine Artikelserie in JAMA (verkürzte Version des Centre for Health Evidence) stellt das Vorgehen exemplarisch für verschiedene Fragestellungen vor. Auch verschiedene Lehrbücher führen übersichtlich in die Beurteilungssystematik unterschiedlicher Studientypen ein. EbM Grundkurse legen besonderen Wert auf das Training einer effizienten Literaturbewertung (appraisal skills).

Systematische Übersichtsarbeiten, evidenzbasierte Leitlinien, HTA Berichte und journal clubs beinhalten bereits eine kritische Bewertung. Auch die Qualität dieser Forschungssyntheseprodukte ist wiederum einer kritischen Beurteilung zugänglich. Leitlinien für Forschungsberichte (Reporting Guidelines) geben vor, welche Details für die Beurteilung von Studienqualität wichtig sind und daher Teil eines Studienreports darstellen sollten. 

Systematik der Literaturbewertung


1. Sind die Ergebnisse gültig? (interne Validität)

Unterschiedliche Studientypen sind für verschiedene Arten systematischer Fehler empfindlich. So ist für Aussagen zur Wirksamkeit einer Therapie die Struktur- und Beobachtungsgleichheit der Vergleichsgruppen essentiell. Die Qualität systematischer Übersichtsarbeiten hängt dagegen wesentlich von der Qualität und Vergleichbarkeit der eingeschlossenen Studien ab. Zudem gilt Publikationsbias als wichtige Quelle einer möglicherweise erheblichen Verzerrung der Ergebnisse. Eine Meta-Analyse ohne umfassende Literatursuche oder auf der Basis von methodisch fragwürdigen Studien würde daher als unzuverlässig eingestuft.

Übersicht: Stichworte zur Qualitätsbewertung unterschiedlicher Studien
Therapie (RCT) Systematische Übersichtsarbeit
Randomisierung Fokussierte Fragestellung
Verdeckte Zuordnung (concealed allocation) Definierte Einschlusskriterien für Studien
Angabe von Studienausfällen (drop outs) Umfassende Literatursuche
Intention to Treat Analyse Qualitätsbeurteilung der Studien
Verblindung Untersuchung auf Heterogenität der Studien
Diagnose Prognose
Geeigneter (Gold)standard Gut definierte Patientengruppe
Verblindeter Vergleich Vergleichbares Erkrankungsstadium
Breites Patientenspektrum Vollständiges u. ausreichend langes Follow up
Überprüfung mit Standard unabhängig vom Testergebnis Relevante und gut definierte Endpunkte
Test ausreichend beschrieben (replizierbar) Berücksichtigung wesentlicher prognostischer Faktoren

2. Was sind die Ergebnisse?

a) Art der Ergebnisse
Ergebnisse werden in Therapiestudien z.B. als relatives Risiko, relative Risikoreduktion, absolute Risikoreduktion oder mittlere Differenz angegeben. Bei Meta-Analysen wird in der Regel ein gepooltes Risikomaß (Odds Ratio oder relatives Risiko) oder eine gepoolte mittlere Differenz angegeben. Diese Ergebnisse werden bei Cochrane-Reviews standardmäßig auch graphisch angegeben (Forest plot).

b) Stärke des Effektes
Es muss entschieden werden, ob es sich um einen im vorhandenen Kontext relevanten Effekt handelt. Beispielsweise mag eine absolute Risikoreduktion von 1% bei ausreichend großer Fallzahl einer Metaanalyse statistisch signifikant sein. Doch ist zu hinterfragen, ob es sich hier um eine therapie-rechtfertigende Größenordnung handelt. Wichtig ist an dieser Stelle auch die Beurteilung der Häufigkeit von Nebenwirkungen. In der Abwägung kann die Berechnung einer NNT oder NNH sinnvoll sein.

c) Präzision der Schätzung
Liegt ein großer Effekt vor, sollte überprüft werden, ob das Konfidenz­intervall auch klinisch irrelevante Effektstärken oder Gleichheit (z.B. relatives Risiko = 1,0) mit einschließt. In diesem Fall kann nicht ausreichend sicher davon ausgegangen werden, dass wirklich ein relevanter Unterschied zwischen den Therapien vorliegt. Andersherum kann bei kleinen, als unwesentlich bewerteten Effektstärken eine Aussage über Unwirksamkeit nur getroffen werden, wenn auch die Grenzen des Konfidenz­intervalls im Bereich unwesentlicher Effektstärken liegen.

3. Sind die Ergebnisse wichtig und übertragbar? (externe Validität)

a) Sind die Ergebnisse auf meinen Patienten anwendbar (Übertragbarkeit)
Eine hochselektionierte Studienpopulation beeinträchtigt nicht die interne Validität, sofern die Selektion für beide Vergleichsgruppen die gleiche ist. Es kann jedoch die Übertragbarkeit (externe Validität) einschränken, wenn die Zusammensetzung wesentlich von einer repräsentativen Patientengruppe abweicht. Ein guter Hinweis auf die Übertragbarkeit von Studienergebnissen auf den eigenen Patienten ist die Überlegung, ob er, würde die Studie hier und heute durchgeführt, den Einschlusskriterien entspräche.

b) Wurden alle wichtigen Endpunkte berücksichtigt?
Welche Endpunkte für Patient*in und Arzt / Ärztin wichtig sind, muss aus dem klinischen Zusammenhang heraus entschieden werden. Grundsätzlich sind patient*innenbezogene Endpunkte wie Mortalität, Lebensqualität, Funktion, Auftreten von Komplikationen etc. so genannten Surrogatparametern, wie etwa Laborwertveränderungen vorzuziehen.

c) Wie sieht die Kosten-Nutzen – Abwägung im eigenen Kontext aus?
Ausstattung und Expertise vor Ort sind ebenso wie persönliche Werte des Patienten, gesundheitspolitischer Kontext und Präferenzen des Arztes / der Ärztin von wesentlichem Einfluss in der Abwägung zwischen Nutzen und Schaden einer wirksamen Intervention.


Linksammlung