Wir Menschen besitzen die erstaunliche Fähigkeit, uns das Leben schwerer zu machen, wenn wir versuchen, es uns einfacher zu machen. Was vor allem daran liegt, dass wir darin unschlagbar sind, Mühe, Komplexität und Reflexion auszuweichen. Das lässt sich alles evolutionstheoretisch ganz gut erklären – nichtsdestotrotz führt es gerade in unserer wahnsinnig komplex gewordenen Welt häufig zu Problemen. Ein interessantes Beispiel ist unser Umgang mit eigentlich nützlichen Messgrößen, die wir missbrauchen, weil sie so schön klar und deutlich sind.
Gestatten, unsere heutigen Fallbeispiele: das Bruttoinlandsprodukt (BIP), das Programme for International Student Assessment (PISA) sowie der Hirsch- bzw. kurz h-Index. Zunächst ein paar kurze Worte dazu, was sie eigentlich sind:
Das BIP ist ein Maß der Wirtschaftsaktivität in einem Land; es gibt an, wie viele Waren und Dienstleistungen in einem Land produziert bzw. konsumiert wurden. Es kann entweder über die Entstehungsseite (Produktion) oder die Verwendungsseite (Konsum) definiert und berechnet werden. Die beiden Varianten sind äquivalent. Entstehungsseitig entspricht das BIP dem Wert aller in einer Periode (üblicherweise ein Jahr) in einem Land produzierten Endgüter – sprich, Vorleistungen wie bspw. Bauteile werden nicht eingerechnet. Verwendungsseitig berechnet man das BIP als die Summe aller in einer Periode in einem Land getätigten Konsumausgaben (Privatkonsum + öffentlicher Konsum), zuzüglich der von Unternehmen und vom Staat getätigten Investitionen und der Exporte, abzüglich der Importe. „Brutto“ nennt es sich, weil Abschreibungen nicht abgezogen werden. „Inlands-“, weil die Tatsache außer Acht gelassen wird, dass Einkommen ins oder aus dem Ausland transferiert werden.
PISA ist die regelmäßig stattfindende, von der OECD durchgeführte Studie, die das Ziel hat, den Wissensstand von 15-Jährigen zu testen. Die Teilnehmer werden einem mehrteiligen Test unterzogen, der zur Aufgabe hat, ihre Lese-, mathematische und naturwissenschaftliche Kompetenz sowie die Fähigkeit zum Problemlösen zu messen. Es handelt sich primär um einen Wissenstest, obwohl zugleich auch die Fähigkeit, mit Daten, Diagrammen etc. umzugehen, getestet wird (wie man z. B. hier anhand von Beispielaufgaben aus der 2015er Studie feststellen kann). Üblicherweise gibt es in einem Test mehrere thematische Blöcke, jeweils mit Fragen zu einem Thema. Die durchschnittlichen Ergebnisse der Schüler aus den jeweiligen teilnehmenden Ländern werden dann miteinander verglichen (siehe hier).
Der h-Index ist ein zunehmend beliebter Indikator, mithilfe dessen die Publikationsleistung eines Wissenschaftlers gemessen werden kann. Er wurde 2005 von Jorge Hirsch entwickelt als eine Verfeinerung der üblicherweise verwendeten Zitationszahlen-Indizes. Anstatt einfach zu zählen, wie oft die Publikationen eines Autors von anderen zitiert werden – ein Vorgehen, das sehr empfindlich auf Ausreißer reagiert –, ist der h-Index definiert als die höchste Zahl x der von dem Autor veröffentlichten Fachartikel, von denen jeder mindestens x-mal zitiert wurde. Z. B. hat der Autor dieses Blogs laut der Datenbank Scopus bisher 3 Artikel veröffentlicht, die 15-mal zitiert wurden, mit der folgenden Verteilung der Zitationen: 0, 7, 8; das ergibt einen h-Index von 2.
So weit die Tatsachen. Alle drei Indikatoren – das BIP, die Ergebnisse der PISA-Studie sowie der h-Index – sind durchaus nützlich. Das Problem mit ihnen besteht allerdings darin, dass sie überinterpretiert werden. Aus dem BIP wird allzu häufig ein impliziter Wohlstandsindikator gemacht; PISA-Ergebnisse werden als das Maß der Qualität von Bildungssystemen interpretiert; und der h-Index wird allzu gern zum einzig relevanten Indikator der Qualität wissenschaftlicher Arbeit auserkoren. Doch das können die drei Indikatoren nicht leisten, aus jeweils spezifischen Gründen.
Die Kritik am BIP als Wohlstandsindikator ist fast so alt wie der Indikator selbst. Ich selbst habe zu diesem Thema bereits öfters geschrieben (bspw. hier und da), also dürfte eine kurze Zusammenfassung der gängigen Argumente reichen: das BIP enthält viele für den Wohlstand im weiteren Sinne relevante Aspekte nicht (Heimarbeit, soziales Engagement, nicht-konsumptive Freizeitaktivitäten, Interaktionen mit anderen Menschen, große Teile des Naturkapitals), dafür enthält es viele eindeutig dem Wohlstand und Wohlergehen der Menschen zuwiderlaufende Faktoren (sog. defensive Ausgaben sowie externalitätenlastige Aktivitäten); es korreliert mit Umweltbelastung, wohingegen seine Korrelation mit Maßen des subjektiven Wohlergehens zumindest umstritten ist. Es wurde nicht dazu entwickelt, ein Wohlstandsindikator oder auch nur generell ein „Leitindikator“ für alle Arten von Wirtschafts- und Sozialpolitik zu sein; und es ist als solches auch nicht im geringsten geeignet.
PISA wird wohl zum Teil intensiver kritisiert als es sein muss. Gleichzeitig wird aber implizit oder explizit die Qualität des eigenen Bildungssystems an ihren Ergebnissen und an dem Rang im PISA-Ranking gemessen, mit zum Teil absurden Auswüchsen (so wurde bspw. PISA 2015 in Deutschland eher verhalten negativ aufgenommen, in Polen hingegen überschwänglich positiv – dabei schnitt Deutschland besser ab). Doch sogar bezogen auf die gesetzten Ziele, die zu messenden „Kompetenzen“, sind die PISA-Tests eher nur beschränkt aussagefähig – denn sie sind kurz, stark themenbezogen, sehr von der „Tagesform“ der Teilnehmer abhängig. Ihre Verwendung zu internationalen Vergleichen zwischen mitunter grundsätzlich unterschiedlich strukturierten Bildungssystemen ist noch problematischer. Von der Ausblendung vieler essentieller Aspekte und Ziele der Schulbildung ganz zu schweigen. Kurzum: PISA-Studien liefern durchaus interessante und relevante Einsichten in die Wissensvermittlung in einem gegebenen Schulsystem; ein gutes Abschneiden in ihnen zu einem sine qua non eines jeden Bildungssystems und zum ultimativen Qualitätsindikator für ebendieses System zu machen, ist jedoch deutlich zu weit gegriffen.
Beim h-Index ist die Problematik ähnlich banal wie beim BIP: je nach Disziplin haben die üblicherweise betrachteten Publikationen in (ISI-gelisteten) Fachzeitschriften unterschiedliche Stellung – bspw. zählt unter Geisteswissenschaftlern immer noch eine Buchveröffentlichung wesentlich mehr; in manchen Disziplinen ist es leichter, viele Publikationen zu „produzieren“, weil es dort üblich ist, in großen Teams zu arbeiten, sodass sich die Arbeitslast auf viele Schultern verteilt; eine viel zitierte Publikation wird schnell zum Selbstläufer und wird noch häufiger zitiert, weil sie häufig zitiert wurde (frei nach dem Prinzip „famous for being famous“); bestimmte Typen von Publikationen werden systematisch häufiger zitiert (solche, die einen Überblick über ein Feld verschaffen), obwohl andere als wissenschaftlich relevanter/bedeutsamer angesehen werden können; alle auf Zitationszahlen basierenden Maße sind empfindlich gegen Manipulationen (insbesondere da oft nicht klar ist, warum jemand eigentlich überhaupt als Autor genannt wurde); dass man zitiert wird, heißt noch lange nicht, dass man einen wichtigen Beitrag zur Wissenschaft geleistet hat (wenn ich in Artikel reinlese, die mich zitiert haben, ist mir manchmal nicht klar, warum ich eigentlich zitiert wurde); Wissenschaft ist nicht nur Publizieren, man kann Wissen generieren und es anderweitig kommunizieren; … Auch hier gilt wieder: der h-Index hat einen nicht zu unterschätzenden Informationsgehalt. Aber er sagt allein wenig über die Qualität der Forschung eines Einzelnen aus.
The funny thing is, eigentlich wissen (fast) alle Beteiligten um die Grenzen dieser und ähnlicher Indikatoren. Und trotzdem werden sie immer und immer wieder missinterpretiert – von Medien, Politikern, Wissenschaftlern, am Stammtisch… Warum ist das so? Weil diese Indikatoren eindeutig, bequem und scheinbar präzise sind. Das diesjährige BIP ist entweder höher oder niedriger als letztes Jahr. Polen hat bei PISA entweder besser oder schlechter abgeschnitten als Deutschland. Mein h-Index ist 2, der von meinem Kollegen (oder einem Mitbewerber um eine Stelle) 5. Mit standardisierten Zahlen, die allen geläufig sind, lässt es sich gut und wirksam argumentieren. Wenn man dies nicht tun und stattdessen gehaltvollere Argumente verwenden möchte, muss man plötzlich Abwägungsentscheidungen treffen (Sind Arbeitsplätze (ge)wichtiger als Naturschutz? Was sagt ein TED-Vortrag über die wissenschaftliche Qualität eines Forschers aus?), diese Entscheidungen verteidigen, mit Grauschattierungen und „soften“, vagen Argumenten arbeiten, in seine Argumentationsführung mehr Zeit investieren, mehr wissen (denn es reicht nicht mehr, eine einzelne Zahl nachzusehen)… In der Wissenschaft kommt noch hinzu, dass statistische Analysen (d. h., die Suche nach Korrelationen und kausalen Beziehungen) am besten funktionieren, wenn man einzelne messbare Größen verwendet. All dies führt dazu, dass wir wider besseres Wissen immer wieder das BIP als Wohlstandsindikator, die PISA-Ergebnisse als Messlatte für das Bildungssystem und den h-Index als Lakmustest für wissenschaftliche Qualität nutzen.
Und das ist oftmals vermutlich gar nicht so wild. In vielen Kontexten ist die Verwendung solcher „pseudo-präzisen“ Indikatoren zulässig, weil sie Argumentationen vereinfacht und diese Indikatoren für die gegebenen Zwecke gut genug sind. Doch leider gewöhnen wir uns sehr gern und schnell (wieder diese inhärente Bequemlichkeit bzw. Effizienzdrang des Menschen…) an diese Vereinfachungen und vergessen, dass sie – eben – Vereinfachungen sind, die nicht in jedem Kontext angebracht sind. So anstrengend und aufwendig das ist, sollten wir also immer wieder reflektieren, ob wir für unsere Argumente die passende Datengrundlage nutzen. Sonst landen wir auch ohne böse Absichten und relativistische Tendenzen im Land des Postfaktischen.