Debata publiczna na temat przyszłości sztucznej inteligencji jest dziś niezwykle spolaryzowana. Z jednej strony mamy ekspertów i media wieszczących, że rozwój AI zwalnia, a obecny entuzjazm to tylko bańka spekulacyjna. Z drugiej – akceleracjonistów przekonanych, że jesteśmy o krok od stworzenia Sztucznej Inteligencji Ogólnej (AGI), która zapoczątkuje utopię. W centrum tego sporu leży fundamentalny problem: nie potrafimy już wiarygodnie mierzyć postępów AI. Standardowe testy (benchmarki) z matematyki, nauk ścisłych i kodowania zostały przez najlepsze modele „nasycone” – osiągają w nich niemal doskonałe wyniki, co sprawia, że porównania tracą sens. Jednocześnie brakuje nam jakichkolwiek miarodajnych narzędzi do oceny ich zdolności w dziedzinach humanistycznych, gdzie nie ma prostych, zero-jedynkowych odpowiedzi. Bez rzetelnych informacji o faktycznych możliwościach AI, trudno jest przygotować się na przyszłość, która nadchodzi szybciej, niż wielu z nas sądzi.

Zmieniająca się rozmowa: od modeli do systemów

Jeszcze do niedawna wielu obserwatorów, w tym ja, podchodziło do wizji transformacyjnej AI z rezerwą. Punktem zwrotnym okazało się pojawienie systemów typu Deep Research. To już nie tylko pojedynczy model językowy, ale zintegrowana platforma, która łączy potężne, wytrenowane w rozumowaniu LLM-y z narzędziami dającymi im dostęp do informacji i zasobów. W efekcie mamy do czynienia z wysoce wydajnymi modelami, które potrafią wywoływać zewnętrzne narzędzia, czytać pliki i korzystać z dodatkowej mocy obliczeniowej w czasie rzeczywistym.

To tworzy jasną ścieżkę do systemów AI, które będą lepsze od większości ludzi w większości zadań wykonywanych na komputerze. Jak pisze felietonista Ezra Klein z „New York Times”, poważni ludzie w laboratoriach AI i agencjach rządowych nie mają wątpliwości, że coś na kształt AGI jest nieuniknione – widzą to w produktach, które tworzą i w potencjale, który drzemie w ich wewnętrznych projektach. To, czy nazwiemy to AGI, staje się kwestią drugorzędną. Kluczowe jest zrozumienie, że przekraczamy ważny próg.

Paradoks nasyconych benchmarków: kiedy postęp staje się niewidoczny

Jednym z głównych problemów w ocenie AI jest to, że modele stały się zbyt dobre dla obecnych testów. Prowadzi to do paradoksu: im lepsze stają się modele i im mniej zadań, w których zawodzą, tym trudniej jest zauważyć i docenić dalsze ulepszenia. Jeśli poprzednia wersja modelu potrafiła bezbłędnie wykonać 100% zadań administracyjnych, takich jak ekstrakcja danych z dokumentów, nowsza, potężniejsza wersja nie może tego zrobić „lepiej”. Użytkownik nie zauważy postępu, jeśli nie użyje nowego modelu do zadań, które wcześniej były poza zasięgiem.

Moja intuicja podpowiada, że nowsze modele są znacznie lepsze, niż sugerują to benchmarki. Doskonałym tego przykładem jest odczytywanie historycznego pisma odręcznego (HTR).

Model Dokładność odczytu (CER – błąd na poziomie znaku)
Transkribus (dotychczasowy lider) ok. 10-15% błędu
GPT-4o (wiosna 2024) ok. 13% błędu (skok o 50% w stosunku do GPT-3.5)
Gemini 2.0 Pro (jesień 2024) ok. 3% błędu (prawie 3x lepiej niż Transkribus)
GPT-4.5 (jesień 2024) ok. 5% błędu

Liczby te, choć imponujące, nie oddają w pełni jakościowej zmiany. Błąd na poziomie 8% w przypadku GPT-4o może całkowicie zmienić sens prawnego dokumentu (np. błędnie odczytać czas trwania umowy najmu z czterech lat na dwa). Tymczasem błędy GPT-4.5 są na tyle drobne (np. odczytanie „budynki” jako „budynki gospodarcze”), że nie wpływają na zrozumienie tekstu. To nie jest tylko lepsza wizja komputerowa; myślę, że model zaczyna „czytać” dokument w bardziej złożony, ludzki sposób.

Czy duże modele mają „wyczucie”? Przekraczanie progu w humanistyce

Te same jakościowe zmiany, które widzimy w HTR, manifestują się w bardziej złożonych zadaniach humanistycznych, takich jak analiza historyczna. Ocena takich prac jest niezwykle trudna, ponieważ nie ma jednej poprawnej odpowiedzi. Podobnie jak w przypadku oceniania studentów, różnica między pracą na ocenę A- a A+ często leży w niuansach – wyrafinowaniu argumentu, sposobie wykorzystania dowodów, stylu i ogólnym dopracowaniu.

Testowałem najnowsze modele na zadaniu, które daję studentom pierwszego roku: analizie sześciu sprzecznych ze sobą źródeł dotyczących kapitulacji St. John’s w Nowej Fundlandii w 1762 roku.

  • GPT-3.5 (zima 2023): Potrafił streścić dokumenty, ale jego odpowiedź była pozbawiona spójnego argumentu (ocena C+ do B-).

  • GPT-4o (wiosna 2024): Stworzył przyzwoitą, ale nudną odpowiedź, argumentując w stylu „wszystko po trochu” (ocena B do B+).

  • GPT-4.5 (jesień 2024): Jego odpowiedź jest na poziomie solidnej pracy na A. Model nie tylko uznaje złożoność sytuacji, ale przedstawia jasną tezę i, co najważniejsze, rozumie ukryty cel zadania: pokazanie, jak historycy muszą ważyć sprzeczne dowody.

Gdy zadanie staje się bardziej otwarte (np. „napisz rozdział książki na podstawie tych źródeł”), różnica jest jeszcze bardziej uderzająca. Model Sonnet 3.7 potrafił zsyntetyzować fakty z wielu dokumentów, aby stworzyć spójną, narracyjną anegdotę, która doskonale wprowadza w niuanse dalszego argumentu. Gdybym otrzymał taki tekst do recenzji, nie domyśliłbym się, że został napisany przez LLM.

Wniosek: ostatnie pokolenie „ludzkich” historyków?

Kiedy mówię, że mogę być częścią ostatniego pokolenia historyków, nie mam na myśli, że ludzie przestaną pisać historię. Mam na myśli, że jestem prawdopodobnie częścią ostatniego pokolenia, dla którego historia będzie przedsięwzięciem wyłącznie ludzkim. Gdy maszyny zaczną pisać historię razem z nami – dla muzeów, archiwów, genealogów czy firm – nastąpi fundamentalna zmiana w postrzeganiu historii i roli historyków.

Nadal będziemy wnosić coś, czego brakuje maszynom, zwłaszcza w obszarach, gdzie kontekst kulturowy i perspektywa są kluczowe. Ale musimy zacząć myśleć o tym, jak będziemy współistnieć z historykami AI i jak możemy wykorzystać te narzędzia na naszą korzyść. W przeciwnym razie ryzykujemy, że zostaniemy zepchnięci na margines.

Kanarki w kopalni AI: dlaczego nie potrafimy już mierzyć postępów sztucznej inteligencji by
Kanarki w kopalni AI: dlaczego nie potrafimy już mierzyć postępów sztucznej inteligencji

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *