Wokół nas krąży mnóstwo intrygujących teorii na temat tego, co na co wpływa. Czy X powoduje Y? Pytanie wydaje się proste, ale odpowiedź ma fundamentalne znaczenie. Wyobraź sobie, że X to… cokolwiek: edukacja przedszkolna, dieta paleo, jedzenie ryb w ciąży, mikroskładnik odżywczy, wolny handel, specyficzna ustawa, a nawet technika samopomocy. A Y to… cokolwiek innego: zarobki w dorosłym życiu, ryzyko ADHD, PKB per capita, innowacyjność, spadek przestępczości. Gdybyśmy znali prawdziwą relację między X i Y, moglibyśmy podejmować znacznie lepsze decyzje – jako jednostki i jako społeczeństwa. Postanowiłem więc zanurzyć się głęboko w literaturę naukową, by znaleźć odpowiedź. To, co odkryłem, jest jednocześnie fascynujące i głęboko frustrujące.
Krajobraz po bitwie: toniemy w danych, ale umieramy z pragnienia wiedzy
W skrócie, sytuacja wygląda następująco:
-
Istnieją setki badań na temat tego, czy X powoduje Y, ale większość z nich jest bezużyteczna.
-
Istnieje od jednego do pięciu naprawdę interesujących badań, które na pierwszy rzut oka wydają się solidne i przełomowe.
-
Im głębiej analizujesz te „dobre” badania, tym obraz staje się bardziej mętny i sprzeczny.
-
Na końcu zostajemy z wyborem między (a) uwierzeniem w skrajnie skomplikowaną teorię, która jakoś godzi wszystkie sprzeczne i często niewiarygodne wyniki, a (b) powrotem do tego, co podpowiadała nam intuicja, zanim w ogóle zaczęliśmy szukać dowodów.
Plewy: setki badań, które musimy odrzucić
Dobra wiadomość jest taka, że naukowcy nie próżnują – opublikowano setki artykułów o związku X i Y. Zła wiadomość jest taka, że większość z nich nadaje się do kosza.
Wiele ma komicznie małe próby badawcze (np. 20 osób) lub absurdalnie krótkie horyzonty czasowe (np. dwutygodniowa dieta). Ale największym i wszechobecnym problemem jest to, że są to proste badania obserwacyjne. Ich jedyny wniosek brzmi: „ludzie/kraje, którzy mają więcej X, mają też więcej Y”.
Dlaczego to tak mało nam mówi? Z powodu tzw. zmiennych zakłócających (ang. confounders). Może istnieć jakaś trzecia rzecz, Z, która jest skorelowana zarówno z X, jak i z Y. I mamy dobre powody, by sądzić, że takie zmienne są wszechobecne:
-
Efekt „dobrego życia”: Ludzie/kraje z większą ilością X mają też zwykle więcej innych pożytecznych rzeczy – są bogatsi, lepiej wykształceni, zdrowsi. Jeśli badamy, czy lepsza szkoła (X) prowadzi do wyższych zarobków (Y), problemem jest to, że dzieci z lepszych szkół pochodzą też z zamożniejszych rodzin (Z), które dają im mnóstwo innych przewag.
-
Efekt „świadomego wyboru”: Sam fakt, że w kręgach intelektualnych panuje moda na teorię „X powoduje Y”, sprawia, że bogatsi i lepiej wykształceni ludzie celowo starają się mieć więcej X, jednocześnie robiąc tysiąc innych rzeczy, by osiągnąć Y. Na przykład, bardziej wykształcone matki częściej jedzą ryby w ciąży (X), ale też czytają dzieciom, chodzą do lepszych lekarzy i dbają o dietę (Z), co komplikuje próbę ustalenia, czy to faktycznie ryby (X) wpływają na inteligencję dziecka (Y).
Oczywiście autorzy tych badań próbują sobie z tym radzić. Mówią, że „kontrolowali” wpływ zmiennych zakłócających, używając techniki zwanej analizą regresji. Problem w tym, że:
-
Nie da się w prosty i intuicyjny sposób wyjaśnić, jak ta technika faktycznie „kontroluje” cokolwiek.
-
Działanie tej metody opiera się na wielu subtelnych założeniach, które mogą się załamać w nieoczekiwany sposób.
-
Żadne z setek badań obserwacyjnych nie dyskutuje tych problemów i nie sprawdza, czy ich założenia są w ogóle spełnione.
Nie możemy ufać tym badaniom. Przejdźmy więc do tych lepszych.
Ziarno: od jednego do pięciu badań, które dają nadzieję (na chwilę)
Po przekopaniu się przez morze bezużytecznych analiz, znalazłem od jednego do pięciu naprawdę interesujących badań. Wykorzystują one znacznie sprytniejsze metody.
Typ 1: Dziwny przypadek w historii
Jedno z badań wykorzystuje naturalny eksperyment – dziwne, jednorazowe wydarzenie historyczne, które sprawiło, że X zostało rozdystrybuowane w sposób niemal losowy. Mogło to być np. nagłe pozwolenie Fidela Castro na emigrację z Kuby, kampania Johna Rockefellera na rzecz eradykacji tęgoryjca, czy masowa amnestia we Włoszech. Autorzy wydają się niezwykle skrupulatni, analizując każdą możliwą słabość swojego badania. Ich wniosek: X powoduje Y!
Ale gdy przyjrzymy się bliżej, pojawiają się wątpliwości:
-
Analiza jest trudna do powtórzenia (replikacji), a gdy komuś się to w końcu uda, wyniki bywają inne.
-
W trakcie tego historycznego wydarzenia działy się też inne dziwne rzeczy (np. zmiana metod zbierania danych spisowych), co utrudnia generalizację.
-
Inny naukowiec publikuje odpowiedź, w której przedstawia skomplikowaną teorię, jak badanie mogło dojść do błędnych wniosków. To rozpoczyna wieloletnią, akademicką przepychankę, po której już zupełnie nie wiadomo, co myśleć.
Typ 2, 3, 4 i 5: Inne sprytne podejścia (z podobnymi problemami)
Inne interesujące badania mogły obejmować:
-
Porównanie rodzeństwa (lub „bardzo podobnych krajów”), z których jedno otrzymało więcej X niż drugie.
-
Zastosowanie złożonej techniki matematycznej, która rzekomo potrafi idealnie wyizolować efekt X. Niestety, nikt poza autorami nie jest w stanie do końca zrozumieć, co ona robi i jakie ma ukryte założenia.
-
Prawdziwy eksperyment z randomizacją: Uczestników losowo przydzielono do grup otrzymujących różne ilości X. To brzmi jak złoty standard! Niestety, tu też pojawiają się problemy:
-
Nie jest do końca jasne, czy przydział był naprawdę losowy.
-
W trakcie badania wydarzyły się ekstremalne rzeczy (np. powódź stulecia), więc nie wiadomo, czy wyniki można odnieść do normalnych warunków.
-
Wynik jest „kruchy” (dodanie kilku nowych danych osłabia go) lub po prostu niewiarygodny (np. dzieci osiągają lepsze wyniki w teście na inteligencję po kilku tygodniach jedzenia ryb, których… w większości nawet nie zjadły).
-
Co gorsza, te 1-5 „dobrych” badań często dochodzi do zupełnie sprzecznych wniosków. Jak to możliwe? Jedynym wyjaśnieniem jest jakaś niezwykle skomplikowana teoria, np.: „X powoduje Y, ale tylko w bardzo specyficznych warunkach (jeśli spełniasz jedno z 7 kryteriów), a jeśli spełniasz jedno z 9 innych kryteriów, to powinieneś unikać X”.
Wniosek: Powrót do intuicji
Muszę przyznać, że ta podróż była jednocześnie bardziej fascynująca i mniej pouczająca, niż się spodziewałem. Myślałem, że znajdę kilka solidnych badań i będę miał jasną odpowiedź. Zamiast tego, dowiedziałem się mnóstwa rzeczy o dziwnych wydarzeniach historycznych i niuansach pomiaru X i Y, ale w kwestii „czy X powoduje Y” czuję się jeszcze bardziej zdezorientowany niż na początku.
Jaki jest więc mój ostateczny wniosek? Chyba taki, że X powoduje Y, bo tak podpowiada mi intuicja.
Cieszę się jednak, że przeprowadziłem te poszukiwania. Dobrze jest wiedzieć, jak łatwo badania w naukach społecznych mogą pójść na manowce. I dobrze jest wiedzieć, że pomimo pewnych siebie deklaracji zwolenników i przeciwników X, prawda jest taka, że to po prostu cholernie niejasne.
Pomysł na doktorat
Tytuł propozycji doktoratu: Metaanaliza odporności i błędu publikacji w badaniach nad związkiem przyczynowo-skutkowym w naukach społecznych: Systematyczny przegląd i symulacja dla wybranych par (X,Y).
Uzasadnienie i cele:
-
Systematyzacja chaosu: Przedstawiony tekst opisuje anegdotyczny chaos w literaturze. Doktorat miałby na celu systematyczne zmapowanie tego chaosu dla kilku konkretnych, ważnych par (X,Y) (np. edukacja-zarobki, dieta-zdrowie).
-
Ocena odporności wyników: Głównym celem byłoby zastosowanie zaawansowanych technik metaanalitycznych do oceny, jak „kruche” są wyniki w danej dziedzinie. Zbadane zostałyby m.in. wrażliwość na różne definicje zmiennych, metody statystyczne i wpływ pojedynczych badań na ogólny wniosek.
-
Kwantyfikacja błędu publikacji (publication bias): Projekt wykorzystałby techniki statystyczne (np. wykresy lejkowe, test Eggera) do oszacowania, w jakim stopniu literatura w danej dziedzinie jest zniekształcona przez tendencję do publikowania tylko wyników istotnych statystycznie.
-
Wnioski dla metodologii i polityki naukowej: Wyniki mogłyby dostarczyć dowodów na to, które dziedziny nauk społecznych są bardziej, a które mniej wiarygodne. Mogłyby również prowadzić do rekomendacji dotyczących standardów raportowania badań, promowania replikacji i tworzenia bardziej solidnych podstaw dla decyzji opartych na dowodach (evidence-based policy).