Intelektualna ciemna materia: jak odnaleźć ukryte skarby w literaturze naukowej?

We wszechświecie ludzkiej wiedzy istnieje „intelektualna ciemna materia”. To idee, odkrycia i połączenia, które, choć zapisane i opublikowane, pozostają niewidoczne, rozproszone po milionach artykułów naukowych. Stanisław Lem pisał, że „idea, która nie weszła do krwiobiegu nauki (…) w praktyce dla nas nie istnieje”. To właśnie jest sedno zjawiska, które Don Swanson, pionier dziedziny odkryć opartych na literaturze (LBD), nazwał „nieodkrytą wiedzą publiczną”. To wiedza, która nie jest zaginiona, ale zapomniana, ukryta na widoku.

Ukryta wiedza w nauce

Wyobraźmy sobie ogromną bibliotekę zawierającą około 100 milionów publikacji naukowych. Żaden człowiek ani zespół badawczy nie jest w stanie przeczytać i zrozumieć nawet ułamka tego dorobku, nawet w swojej wąskiej dziedzinie. Jednocześnie, jak zauważył Swanson, natura jest „wewnętrznie połączona”. Oznacza to, że w tej ogromnej masie tekstów muszą istnieć ukryte logiczne powiązania między odkryciami z różnych, niekomunikujących się ze sobą dziedzin nauki. To jak gigantyczna układanka, której fragmenty trzymają w rękach badacze z całego świata, nie wiedząc, że ich kawałki do siebie pasują.

Odkrycia oparte na literaturze (LBD) to próba złożenia tej układanki. To poszukiwanie już istniejących, ale jeszcze nieujawnionych powiązań między koncepcjami, pytaniami i odpowiedziami, które mogłyby doprowadzić do przełomowych hipotez.

Od magnezu i migreny do leku na COVID-19: obietnica LBD w praktyce

Klasyczny i najbardziej znany przykład sukcesu LBD pochodzi od samego Dona Swansona. W latach 80. XX wieku, jako fizyk zaintrygowany biologią, zauważył on w literaturze medycznej intrygującą zbieżność. Artykuły opisujące objawy niedoboru magnezu wymieniały symptomy uderzająco podobne do tych występujących przy migrenie. Co ciekawe, te dwie dziedziny literatury – badania nad magnezem i badania nad migreną – nigdy wcześniej nie były ze sobą cytowane ani łączone. Na tej podstawie Swanson sformułował hipotezę: suplementacja magnezu może łagodzić migreny. Hipoteza ta została później potwierdzona w badaniach klinicznych.

To odkrycie pokazało, że w opublikowanej literaturze naukowej drzemią gotowe odpowiedzi na ważne pytania – wystarczy tylko umieć je odnaleźć.

Bardziej współczesnym i spektakularnym przykładem jest historia leku na COVID-19. Na początku pandemii, w styczniu 2020 roku, firma BenevolentAI wykorzystała swoje narzędzia LBD do przeszukania literatury w poszukiwaniu istniejącego leku, który mógłby jednocześnie zwalczać wirusa i łagodzić stan zapalny. W ciągu zaledwie dwóch dni ich system, oparty na grafach wiedzy i uczeniu maszynowym, przeanalizował 378 potencjalnych kandydatów i wyłonił sześciu faworytów. Najbardziej obiecującym okazał się baricytynib, lek stosowany wcześniej w leczeniu reumatoidalnego zapalenia stawów. Badania kliniczne szybko potwierdziły jego skuteczność, a już w listopadzie 2020 roku otrzymał on awaryjną autoryzację FDA.

Dlaczego LBD, mimo obietnic, wciąż jest niszą?

Mimo tych sukcesów i arsenału zaawansowanych metod obliczeniowych, od prostych statystyk słów po potężne duże modele językowe (LLM), LBD wciąż pozostaje w dużej mierze przedsięwzięciem teoretycznym. Odkrycia na miarę tych Swansona czy BenevolentAI są rzadkością. Dlaczego tak się dzieje?

  1. Problem z oceną (ewaluacją): Jak zmierzyć sukces metody LBD? Wynikiem jej działania jest zazwyczaj długa lista potencjalnych, nowych hipotez. Ich eksperymentalna weryfikacja jest kosztowna i czasochłonna. Z kolei ocena „na sucho”, w środowisku komputerowym, jest niezwykle trudna. Przez dekady polegano na tzw. „ewaluacji przez replikację” – sprawdzaniu, czy nowa metoda potrafi odtworzyć kilka znanych, historycznych odkryć (jak magnez-migrena). To jednak za mało, by rzetelnie porównać algorytmy i mierzyć postęp w dziedzinie.

  2. Szum informacyjny: Samo współwystępowanie dwóch pojęć w literaturze nie oznacza odkrycia. Większość takich połączeń jest trywialna („cukrzyca” i „poziom cukru we krwi”) lub przypadkowa. Oddzielenie prawdziwych, wartościowych sygnałów od szumu wymaga ludzkiej, eksperckiej oceny, której nie da się w pełni zautomatyzować.

  3. Ograniczenia języka i publikacji: Literatura naukowa, mimo swojego ogromu, jest „stratnym” odzwierciedleniem rzeczywistości. Nie zawiera wiedzy ukrytej (nabytej przez doświadczenie) ani wiedzy własnościowej (zamkniętej w firmach). Dodatkowo, jest obarczona problemem niereplikowalnych wyników i barierami w dostępie (płatne czasopisma), co dodatkowo komplikuje jej użyteczność.

  4. Problem z adopcją: Jak na ironię, dziedzina LBD, która miała łączyć odizolowane wyspy wiedzy, sama cierpi na fragmentację. Istnieje wiele małych grup badawczych, które rzadko ze sobą współpracują. Co ważniejsze, naukowcy z innych dziedzin – docelowi użytkownicy tych narzędzi – rzadko z nich korzystają.

Czy duże modele językowe (LLM) są rozwiązaniem?

Pojawienie się dużych modeli językowych, takich jak te z serii GPT, wnosi do LBD nową jakość. Wcześniejsze metody były dobre w wykrywaniu prostych, parzystych powiązań (A → B). LLM-y potrafią „rozumieć” kontekst, śledzić złożone „łańcuchy myślowe” i formułować hipotezy w języku naturalnym, podobnie jak ludzki badacz.

Już teraz widzimy pierwsze obiecujące rezultaty. Model AI Co-Scientist od Google, po zapoznaniu się z literaturą na dany temat, zaproponował odkrywczą hipotezę dotyczącą mechanizmu transferu genów u wirusów. Okazało się, że była to ta sama hipoteza, do której zespół ludzkich badaczy doszedł po latach pracy (i której jeszcze nie opublikował). To pokazuje ogromny potencjał AI jako partnera w rozumowaniu naukowym.

Jednak LLM-y mają też swoje problemy:

  • Halucynacje: Modele te są zoptymalizowane pod kątem generowania prawdopodobnych, a niekoniecznie prawdziwych, stwierdzeń.

  • Problem „spojrzenia w przyszłość”: W analizie tekstów historycznych, LLM-y wytrenowane na współczesnych danych mogą nieświadomie „przenosić” wiedzę z przyszłości, co fałszuje wyniki.

  • Ograniczona kreatywność: LLM-y doskonale radzą sobie z kreatywnością kombinatoryczną (tworzenie nowych połączeń ze znanych idei) i eksploracyjną (odkrywanie nowych ścieżek w ramach istniejącej wiedzy). Wciąż jednak nie wykazują kreatywności transformacyjnej – zdolności do tworzenia zupełnie nowych pojęć i paradygmatów, która jest domeną największych ludzkich umysłów.

„Pętla śnienia na jawie”: przyszłość automatycznych odkryć?

Jak więc w pełni wykorzystać potencjał LLM-ów w LBD? Jedną z wizjonerskich koncepcji jest stworzenie tzw. „pętli śnienia na jawie” (daydreaming loop). Taki system działałby w tle, nieustannie losując pary pojęć z całej literatury naukowej. Jeden model (generator) próbowałby znaleźć między nimi nieoczywiste połączenia, a drugi (krytyk) oceniałby, które z tych pomysłów są naprawdę wartościowe. Najlepsze odkrycia byłyby dodawane z powrotem do bazy wiedzy, tworząc samonapędzającą się pętlę, w której nowe idee stają się zalążkiem kolejnych.

Taki algorytm mógłby zrealizować pierwotną obietnicę LBD – systematyczne i skalowalne odkrywanie „nieznanej znanej” wiedzy. Choć wciąż jest to wizja przyszłości, pokazuje ona, jak głęboko sztuczna inteligencja może zmienić sposób, w jaki uprawiamy naukę.

Literatura naukowa to skarbnica skumulowanej wiedzy ludzkości. Zostawilibyśmy ogromną wartość na stole, gdybyśmy nie próbowali kopać głębiej w poszukiwaniu ukrytych w niej połączeń i idei. Rozwój zaawansowanych, zautomatyzowanych metod analizy literatury, zdolnych do generowania i wstępnej walidacji nowatorskich hipotez, mógłby stać się fascynującym tematem interdyscyplinarnego projektu doktorskiego na styku informatyki, lingwistyki i teorii nauki.


Najczęściej zadawane pytania (FAQ)

  1. Czym dokładnie jest model ABC w LBD?
    To podstawowy model odkryć oparty na literaturze. Zakłada on, że jeśli literatura A łączy pojęcie A z pojęciem B, a oddzielna literatura C łączy pojęcie B z pojęciem C (i nie ma publikacji łączących A i C bezpośrednio), to można sformułować hipotezę o ukrytym związku między A i C, z B jako ogniwem pośrednim.

  2. Czy LBD może być stosowane poza biomedycyną?
    Tak, chociaż biomedycyna jest głównym polem zastosowań ze względu na ogromną ilość danych i potencjalne korzyści (np. odkrywanie leków). Metody LBD były z powodzeniem stosowane np. w materiałoznawstwie do „odkrywania wstecznego” (retrospektywnego) materiałów o określonych właściwościach. Mają też potencjał w naukach społecznych do analizy ewolucji pojęć w tekstach historycznych.

  3. Na czym polega różnica między kreatywnością eksploracyjną a transformacyjną?
    Kreatywność eksploracyjna polega na poruszaniu się w ramach istniejących zasad i odkrywaniu nowych możliwości w ich obrębie (np. kompozytor piszący nowy utwór w stylu barokowym). Kreatywność transformacyjna polega na zmianie samych zasad gry, tworzeniu zupełnie nowego „języka” lub paradygmatu (np. Arnold Schönberg tworzący muzykę atonalną). LLM-y są dobre w pierwszym typie, ale drugi wciąż wydaje się poza ich zasięgiem.

  4. Co to jest „Retrieval-Augmented Generation” (RAG) i jak pomaga w LBD?
    To technika, która ma na celu ograniczenie „halucynacji” dużych modeli językowych. Zamiast generować odpowiedź wyłącznie na podstawie swojej wewnętrznej wiedzy, model najpierw przeszukuje zaufaną bazę danych (np. zbiór artykułów naukowych) w poszukiwaniu relevantnych informacji, a następnie wykorzystuje te informacje do sformułowania odpowiedzi. Zapewnia to, że wynik jest „ugruntowany” w istniejących faktach.

  5. Czy „pętla śnienia na jawie” jest już technicznie możliwa do zrealizowania?
    Teoretycznie tak, ale główną barierą są ogromne koszty obliczeniowe. Ciągłe losowanie i testowanie miliardów par pojęć byłoby znacznie droższe niż samo wytrenowanie modelu językowego. Ponadto, stworzenie skutecznego modelu „krytyka”, który potrafiłby trafnie oceniać „wartościowość” i „ciekawość” nowej idei, jest wciąż ogromnym wyzwaniem.

Ukryta wiedza w nauce: Jak AI odkrywa to, co naukowcy przegapili? by
Ukryta wiedza w nauce: Jak AI odkrywa to, co naukowcy przegapili?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *