A tudomány problémája az, hogy annyira egyszerűen nem. Tavaly nyáron az Open Science Collaboration bejelentette, hogy megpróbálta megismételni száz közzétett pszichológiai kísérletet, amelyet a terület három legrangosabb folyóiratából vett mintából. A tudományos állítások azon az elképzelésen nyugszanak, hogy a közel azonos körülmények között megismételt kísérleteknek megközelítőleg azonos eredményeket kell kapniuk, ám egészen a közelmúltig nagyon kevés ember zavarta meg szisztematikus módon, hogy ellenőrizze, vajon valóban ez a-e. Az OSC volt a legnagyobb kísérlet a mező eredményeinek ellenőrzésére, és a legmegdöbbentőbb is. Sok esetben eredeti kísérleti anyagokat használtak, és néha még a kísérleteket is az eredeti kutatók irányítása alatt végezték el. Az eredetileg pozitív eredményeket mutató tanulmányok közül egy meglepő 65 százalék nem mutatott statisztikai szignifikanciát a replikációban, és a fennmaradó részek nagy része jelentősen csökkentette a hatásméretet.
Megállapításaik tették a hírt, és gyorsan klubgá váltak, ahol a társadalomtudományokat megragadhatják. De a probléma nemcsak a pszichológiával kapcsolatos. A gyógyszeriparban ki nem mondott szabály szerint az összes tudományos orvosbiológiai kutatás fele végül hamisnak bizonyul, és az 2011-ban a Bayer-i kutatók egy csoportja úgy döntött, hogy teszteli. A preklinikai rákbiológiai kutatásokon alapuló hatvanhét gyógyszer-felfedezési projektet vizsgálva megállapították, hogy az esetek több mint 75 százalékában a közzétett adatok nem egyeztek meg a házon belüli replikációs kísérletekkel. Ezek nem a napi onkológiai folyóiratokban közzétett tanulmányok, hanem a tudományos, természetvédelmi, cellás és hasonló témákban bemutatott kutatások. A Bayer kutatói rossz tanulmányokba fulladtak, és részben ennek tulajdonították a kábítószer-csővezetékek titokzatosan csökkenő hozamát. Lehet, hogy ezeknek az új gyógyszereknek nagyon soknak nincs hatása, mert az alapkutatás, amelyen kifejlesztésük alapul, nem érvényes.
Ha egy vizsgálat nem replikálódik, akkor két lehetséges értelmezés lehetséges. Az első az, hogy a vizsgálók ismeretében valódi különbség volt a kísérleti beállításban az eredeti vizsgálat és a sikertelen replikáció között. Ezeket köznyelven „háttérképhatásoknak” nevezik, azzal a viccgel, hogy a kísérletet a helyiségben található háttérkép színe befolyásolta. Ez a reprodukció kudarcának legboldogabb magyarázata: Ez azt jelenti, hogy mindkét kísérlet felfedte a világegyetemről szóló tényeket, és most lehetősége van megtudni, mi volt a különbség közöttük, és új és finomabb megkülönböztetést építhet be elméleteinkbe.
A másik értelmezés az, hogy az eredeti megállapítás hamis volt. Sajnos egy ötletes statisztikai érv azt mutatja, hogy ez a második értelmezés sokkal valószínűbb. Elsőként John Ioannidis, a Stanfordi Egyetem Orvostudományi Iskolájának professzora fogalmazta meg ezt az érvet a bayes-i statisztikák egyszerű alkalmazásával. Tegyük fel, hogy egy adott területen százszáz kő található. Az egyikben gyémánt van benne, és szerencsére van olyan gyémántérzékelő készüléke, amely hirdeti az 99 százalékos pontosságát. Körülbelül egy óra múlva a készüléket körül mozgatva, az egyes kőket egymás után megvizsgálva, hirtelen riasztások villognak és szirénák sikoltoznak, miközben az eszközt egy ígéretes kinézetű mutatják. Mennyire valószínű, hogy a kő gyémántot tartalmaz?
A legtöbb azt mondaná, hogy ha az eszköz hirdet 99 százalékos pontosságot, akkor 99 százalékos esély van arra, hogy az eszköz helyesen érzékeli a gyémántot, és 1 százalékos esély van arra, hogy hamis pozitív leolvasást adott. De fontolja meg: A szánt egy száz kő közül csak egy valóban gyémánt. Nyilvánvaló, hogy a gépünknek nagyon nagy a valószínűsége, hogy helyesen gyémántnak nyilvánítja. De sokkal több gyémántmentes kő is létezik, és bár a gépnek csak az 1 százalékos esélye van tévesen gyémántként való kijelentésére, vannak száz. Tehát, ha az érzékelőt a mező minden kője fölé hullámolnánk, akkor átlagosan kétszer fog hallani - egyszer az igazi gyémánt számára, és egyszer, amikor egy kő hamis mérést vált ki. Ha csak azt tudjuk, hogy a riasztás megszólalt, ez a két lehetőség nagyjából azonos valószínűséggel jár, mintegy 50 százalékos esélyt adva nekünk, hogy a kő valóban gyémántot tartalmaz.
Ez az érv egyszerűsített változata, amely szerint az Ioannidis maga a tudomány folyamatára is vonatkozik. A mezőben lévő kövek az összes lehetséges tesztelhető hipotézis sorozatát, a gyémánt egy feltételezett kapcsolat vagy hatás, amely valóban való, és a gyémántérzékelő eszköz a tudományos módszer. Egy hatalmas összeg függ a lehetséges igaz hipotézisek arányától és annak pontosságától, amellyel egy kísérlet meg tudja deríteni az igazságot a hamisságtól. Az Ioannidis azt mutatja, hogy a tudományos környezet és a legkülönfélébb területeken e két paraméter értéke egyáltalán nem kedvező.
Vegyük például fontolóra egy molekuláris biológusokból álló csoportot, amely megvizsgálja, hogy a számtalan ezer emberi gén egyikében lévő mutáció kapcsolódik-e az Alzheimer-kórok megnövekedett kockázatához. Egy véletlenszerűen kiválasztott mutáció valószínűsége egy véletlenszerűen kiválasztott génben, amelynek pontosan ez a hatása meglehetősen alacsony, tehát ugyanúgy, mint a mezőben lévő kövek esetében, a pozitív eredmény nagyobb valószínűséggel nem hamis - kivéve, ha a kísérlet hihetetlenül sikeres a válogatás során a búza a pelyvából. Ioannidis valóban azt találja, hogy sok esetben az 50 százalékos valódi pozitív megközelítés elképzelhetetlen pontosságot igényel. Ezért írta tanulmányának szemet gyönyörködtető címe: „Miért téves a legtöbb közzétett kutatási eredmény”.