Zauberwort «Impact»
Wie misst man die Wirkung einer Aktion?
Jedes Engagement will eine Wirkung erzielen. Sie ist der Grund, sich zu engagieren. Dabei ist es nicht nur herausfordernd, gewünschte (sozial-ökologische) Wirkungen an sich zu erzielen - schwierig ist auch, sie zu messen. Also festzumachen zu versuchen, welche Folgen den unendlich vielen Bemühungen für eine bessere Welt folgen. Sie messen und aus den Differenzen zwischen gewünschter und effektiver Wirkung lernen. Jedenfalls ist es erstaunlich, wie wenig man sich im Grunde um dieses Eigentliche kümmert.
Kümmert man sich, besteht bei der Frage nach der Wirkung eines Engagements ein Grundproblem darin, dass man oft (stillschweigend) davon ausgeht, dass eine Intervention nur eine - die angestrebte - Wirkung hervorrufen wird, und man sich beim Monitoring auf diese beschränkt. Das ist aber nie der Fall. Nicht einmal das Amen in der Kirche hat nur eine Wirkung: Für die Pfarrerin ist es das Ende der Sonntagsarbeit, für den Trostsuchenden der Anfang des Wieder-Alleinseins. Oder: Ein Abstimmungsplakat der SVP hat bei ihren Fans ganz andere Wirkungen als unter den Nichtfans, die ihrerseits wiederum unterschiedlich reagieren, also verschiedene Wirkungen zeitigen: mit Ärger, mit Ignorieren oder einer nächtlichen Überklebe-Aktion.
Es ist also wichtig, nicht nur die erwartete oder erhoffte Wirkung zu messen, sondern auch unerwartete Nebenwirkungen vorauszusehen bzw. sie beim Auftreten wahrzunehmen und sich um diese zu kümmern.
Das ist schneller gesagt als getan, denn selbst bei einem simplen Kurs ist die Frage nach seinen Wirkungen nicht einfach zu beantworten. Gewiss, jeder Kurs verfolgt Ziele. Auf einer allgemeinen Ebene sind solche zwar schnell formuliert, im Beispiel eines Konfliktmanagement-Kurses könnte eines z.B. «Lernen mit Konflikten am Arbeitsplatz konstruktiv umzugehen» lauten. Doch was heisst das konkret und wie stellt man fest, ob bei den Absolvent*innen die gewünschten Wirkungen tatsächlich erreicht werden?
«Raten» genügt nicht
Und wie misst man sie? Abgehandelt wird das meist mit einem Rating (ohnehin wird heute alles geratet), was aber z.B. sagt einem eine 7 zum Kursinhalt (auf einer Skala von 10)?
Und nicht nur das Wie, auch das Wann ist relevant. Zwar befragt man bei einem Kurs wie bei einer Aktion am Schluss die Teilnehmenden, wie der Kurs oder die Aktion war, um sich verbessern zu können. Zudem zählt man bei einer Aktion anderntags die Medienberichte als Kurzzeit-Indikator für die Wirkung, bei einer Ausbildung gibt es zum Abschluss einen Test. Doch was sich in der Praxis, die einer Ausbildung folgt, tatsächlich ändern wird, kann an deren Ende nicht gemessen werden (fragt man allerdings geschickt, sind Aussagen möglich; mehr dazu in einer nächsten Kolumne). Und das ist der springende Punkt: Ob Kurs oder Kampagne, es geht vor allem um das Danach, um die nachhaltige Wirkung bzw. den Transfer in eine neue Praxis. Dieser findet umso wahrscheinlicher oder überhaupt erst statt, wenn nach dem Kurs für einen Support zum Praxistransfer gesorgt wird. Es nützt nicht viel, wenn eine geniale Trainerin bei den Teilnehmerinnen tolle unmittelbare Lern-Wirkungen erzielt, wenn diese nicht Arbeitsalltag transferiert werden und dort zum Tragen kommen. Das entspricht der eigenen Erfahrung – was man heute auf eine Prüfung lernt, ist morgen wieder vergessen –, und zeigen auch Untersuchungen und spiegelt sich in der 70-20-10 Modell [1]. Nämlich dass sich berufliche Weiterbildungen oft nicht lohnen, weil es keinen Transferplan gibt. So lohnt sich beispielsweise eine Solarausbildung nur, wenn sie als Jobeinstieg – sei als Praktikum (wie bei Refugees-go-solar) oder als anerkannte Qualifizierung für den Arbeitsmarkt – dient. Kurz: Das «Follow-up» einer Ausbildung wie eines Projektes ist das Wichtigste [2].
Bereits bei einem Kurs stellen sich also für eine verlässliche Wirkungsmessung knifflige Fragen. Und erst recht, wenn die Sache noch komplexer ist – sie wird dann zur grossen Herausforderung. Den Begriff «messen» gilt es dabei mit grosser Vorsicht zu geniessen, denn anders als z.B. bei einer Temperaturmessung liefert Wirkungsmessung keinen objektiven Wert. Um die zahlreichen Wirkungen einer Kampagne oder eines Projektes zu erfassen, werden Indikatoren eingesetzt. Mit den Schlüsselindikatoren (in der Businesswelt KPI genannt), wird versucht, die Komplexität zu reduzieren. Sie werden zwar (meist) SMART definiert, dennoch können sie nicht das wirkliche Gesamtbild erfassen; es besteht bei zu früher oder zu starker Reduktion das Risiko, dass ein eingeschränktes Bild als Abbild der Realität genommen wird.
Das zeigt die Corona-Pandemie anschaulich: Der Schlüsselindikator «Fallzahlen» hilft zwar zur Grobeinschätzung der Fallzahl-Wirkung einer getroffenen Massnahme. Darüber aber, welche weiteren, z.B. mittelfristigen, Wirkungen eine Massnahme hat, ist damit nichts gesagt. Z.B. unmenschliche Zustände in Altersheimen oder die Zunahme von Depressionen bei Jugendlichen, um nur zwei zu nennen.
Was braucht es, um die Mona Lisa zu erkennen?
Gewiss muss Komplexität reduziert werden; doch muss man sich stets bewusst sein, dass das Bild, das die Indikatoren vermitteln, nicht das reale Gesamtbild ist. Es gibt nur einen ersten Eindruck (mehr dazu: «Korona, Komplexität und Kampagne»).
Und wie erhält man diesen Eindruck? Bildlich gesprochen wie folgt: Stellen wir uns die Wirklichkeit als hochaufgelöstes Foto vor, dann wäre am einen Ende des Kontinuums die umfassende Erfassung aller «Pixels» und am anderen Ende kein Pixel, also das weisse Papier. «Alles» zu erfassen ist natürlich viel zu aufwändig und würde auch überfordern. Das heisst, in diesem Bild gesprochen, fragt sich, wie viele und welche Pixel es braucht, um z.B. ein Gesicht erkennen zu können. Bei einem bekannten Kopf, wie z.B. dem der Mona Lisa, genügen ein paar Dutzend gezielt gesetzte Bildpunkte und man erkennt sie (siehe Bild und mehr hier [3]). Diese Pixel entsprächen den gewählten Indikatoren, die ein grobes, aber ganzheitliches Projektbild zeigen.
Indikatoren sind wie Pixel, die ein Bild ergeben
Das richtige und machbare Mass zwischen den beiden Extremen zu finden, heisst, die fürs Gesamtbild relevanten Indikatoren zu suchen und festzulegen. Es kann sein, dass man dabei auf einen wichtigen verzichten muss, weil der Erhebungsaufwand zu gross wäre. Doch Vorsicht «zu aufwändig» ist schnell gesagt und es lauert die Gefahr, nur zu nehmen, was sich einfach zählen lässt. Zahlen suggerieren Genauigkeit, dabei sagen sie oft wenig aus. Sie können freilich Hinweise geben, an welchen Stellen tiefer gebohrt werden sollte, z.B. mit der Befragung einer Akteuren-Gruppe oder einem Gespräch mit Betroffenen und so auch qualitative „Small Data“ gewinnen, um das Bild zu ergänzen [4].
Ein Beispiel dazu: Im Frauen-Solarprojekt Nicaragua wurde für den Projektfortschritt anfänglich die Anzahl der gebauten Solarkocher als Indikator eingesetzt: Je mehr, desto besser. Bis den Projektleiterinnen eines Tages auffiel, dass zahlreiche Kocher ungenutzt herumstanden. Sie beschlossen, fortan die «Zahl der Kocher im tatsächlichen Gebrauch» als Haupt-Indikator zu nehmen. Das hatte grosse Konsequenzen, weil dieser Indikator eine qualitative Erhebung voraussetzt. Man kann nicht mehr einfach den Output zählen, sondern muss den Outcome vor Ort in den Küchen erfassen. D.h. ein Teil der Ressourcen wurde nunmehr dafür eingesetzt, jede Solarkocher-Besitzerin nach dem Baukurs im Schnitt zwei Jahre lang alle zwei Monate zu besuchen. Das verschaffte den Projektleiterinnen ein genaues Bild davon, was die Benutzung des Solarkochers im Alltag fördert bzw. behindert und dazu führte, dass nun 90% der gebauten Kocher tatsächlich eingesetzt werden. Das ist der eigentliche Erfolg des mehrfach ausgezeichneten Projektes.
Es geht also darum, sich nicht nur auf Zahlen abzustützen. Ähnlich wie bei einer Schulnote: Eine Fünf im Französisch sagt etwas aus, aber man weiss nicht genau was. Das herauszufinden, ist die Qualität, die es braucht, um verbessern zu können. Zu frühzeitige Reduktion kann dazu führen, dass das Wesentliche nicht erkannt wird und dass das, was man messen kann, zum Wesentlichen gemacht wird.
Temperatur und Blutdruck sind nicht das Gesamtbild
Ausschliesslich schnell verfügbare Daten auszuwerten wäre, als ob man z.B. nur das Kinn von Mona Lisa hochaufgelöst erfassen würde und meinte so auf den ganzen Kopf schliessen zu können. Doch Grautöne und Tiefenschärfe sind oft nur im Gespräch mit verschiedenen Stakeholdern zu haben (siehe dazu z.B. die Einsichten des MobLab aus ihrer Umfrage zur «Messung von People Power» [5]).
Es ist wie bei einem Kranken, bei dem man rasch Temperatur, Blutdruck und Puls misst, um einen ersten Eindruck zu bekommen. Nur auf diesen Zahlen gestützt die Massnahmen für seine Heilung abzuleiten, scheint zwar effizient, ist aber nicht unbedingt effektiv: Es kann mal gut gehen, man kann aber mit der Diagnose und damit mit den Massnahmen falsch liegen. Für die Evaluation einer Kampagne oder eines Projekts bedeutet das, genau zu überlegen, welche Kennzahlen es braucht und wie die Daten in welcher Frequenz von wem erhoben werden. Als Zahlen und als Aussagen, um ein Gesamtbild in nützlicher Frist zu erhalten.
Last but not least, die Gretchenfrage: Wieviel und welcher Aufwand betreiben, um die verschiedenen Wirkungen einer Intervention zu messen bzw sich ihnen anzunähern, wenn man knapp an Budget ist?! Zentral ist, Monitoring und Wirkungsanalyse als integrale Teile jedes Projekts zu verstehen und sozusagen beiläufig mitlaufen lassen. Aufwandsarm fortlaufend erfassen, könnte das Credo lauten: Zahlen, Stories, Gespräche mit Stakeholdern und auch mit nicht direkt Beteiligten. Das muss nicht viel sein, nur gut überlegt [6].
PS: Alle wollen das: Mit möglichst wenig Aufwand möglichst viel Wirkung erzielen. So banal das tönt, so viel Teufel steckt in den Details des Konkreten. Zum Beispiel: Ist man sich einig, welche Wirkungen man genau erzielen möchte? Was und wieviel ist mit «viel» gemeint? Und wessen Aufwand soll möglichst klein sein? [Denn der eigene Nicht-Aufwand ist ja meist der anderen Arbeit].
[1] Harvard Business Review (2015), Zitat: “U.S. corporations spend enormous amounts of money—some $356 billion globally in 2015 alone—on employee training and education, but they aren’t getting a good return on their investment. People soon revert to old ways of doing things, and company performance doesn’t improve.»
Das 70-20-10-Modell besagt, dass für die meisten Menschen gilt, dass sie vom insgesamt Gelernten (dem Knowhow) 70% on-the-job, 20% von den sozialen Kontakten (“peer-learning”) und nur 10% aus Kursen und Weiterbildungen lernen. Dieses letzte, das formalisierte Lernen, wird also meist überbewertet bzw es wird zu wenig für Transfer gesorgt. Ähnliches gilt bei Kampagnen, sieht man diese als gesellschaftliches Lernen: Nach einer Intervention folgt oft kein Transfer-Support (oder?)
[2] Es gibt viele Möglichkeiten, den Lerntransfer zu unterstützen, das “billigste” ist etwas, Lern-Paare zu bilden, die sich auch nach der Zertifizierung regelmässig treffen (“peer support”), um sich gegenseitig zu helfen, das Gelernte in die Praxis zu bringen (sie sind in derselben Situation mit demselben Interesse; mehr Elemente siehe hier (internes Greenpeace Dokument))
[3] Mehr siehe: «Wie Wirkung messen?»-Artikel, auf dem diese Kolumne beruht, erschienen in "Theories of Change" Springer-Palgrave-Mac Millan Sustainable Finance Series (2021)
[4] einen guten Vergleich zwischen traditionellen Wirkungsmodellen wie etwa das LogFrame sowie neueren Modellen mit reflektiven Ansätzen für komplexe Umstände, die «Small Data» einschliessen, finden sich im Aufsatz «Approaches and methods for monitoring and evaluation» (2017)
[5] Ein paar Kernaussagen aus der MobLab-Evaluation «Measuring People Power»: “... Online-Kennzahlen sind unvollständig. (…) Die meisten befragten Organisationen messen die Breite ihrer Bemühungen, aber weniger die Tiefe oder den Fortschritt in Richtung Mission. (…) Wir fanden einen weit verbreiteten Gebrauch von Kennzahlen wie Listengrösse und Anzahl der Petitionsunterschriften – und das ist eine gute Sache! Aber diese Metriken erfassen nur die Breite der Bemühungen, mehr Menschen zu engagieren. (…) Und fast alle hatten Schwierigkeiten zu messen, wie Breite und Tiefe zusammenspielen, um Fortschritte bei der Erfüllung der Ziele zu erzielen. (…) Als wichtige Indikatoren für die Befähigung wurden Glücks- und Gemeinschaftsgefühl unter Mitlernenden genannt.
[6] Will man umfassend messen, z.B. bei einer Forschungsarbeit, kann als Inspiration der “Happiness Index” dienen - eine umfassende Messung mit über 100 Indikatoren und aufwändiger Erfassung der Daten. Bei Organisationen und Projekten genügen fünf bis zwölf Indikatoren bzw Fragen und Datenerfassungen. Bei Kursen sind es zum Beispiel ein paar Fragen, welche den Abgänger*innen direkt nach dem Kurs und dann nochmals einige Monate später gestellt werden (hier eine Vorlage für die Auswertung eines Trainings)
Unser Autor
Arbeitet als Leiter des globalen Mentoring-Programms bei Greenpeace International. Zuvor war er 25 Jahre lang Bildungsverantwortlicher von Greenpeace Schweiz.
Jahrgang 57, Dr. rer. nat., ehemaliger Chemiker, arbeitet nun als Humanökologe, Lernspezialist sowie auch Schriftsteller. Neben Kolumnen schreibt er vor allem Gedichte und Aphorismen. Seine letzten Veröffentlichungen sind «Im Rosten viel Neues» (Gedichte, 2016) sowie «Aussicht von der Einsicht» (Aphorismen, 2018). Sein neuestes Buch ‹KL!MA VISTA – Die Schneefallgrenze steigt› Gedichte und Aphorismen ist am 23.10.2020 bei Pro Lyrica erschienen.