W nieustannym zgiełku wiadomości o sztucznej inteligencji łatwo stracić z oczu szerszy obraz. Poniżej przedstawiam zbiór refleksji, które powoli krystalizowały się w mojej głowie, dotyczących drogi od miejsca, w którym jesteśmy, do ogólnej sztucznej inteligencji (AGI).

  1. Obecne systemy AI to nie AGI, ale nie wiem, dlaczego. Mam pewne przemyślenia. Mówię o brakujących funkcjach, takich jak „pamięć” i „ciągłe uczenie się”, a być może także „zdolność oceny” i „wgląd”. Wszystkie te pojęcia są jednak dyskusyjne; na przykład ChatGPT posiada pewną formę pamięci. Szczera odpowiedź brzmi: nie wiem, czego brakuje, ale czegoś na pewno, ponieważ jest mnóstwo rzeczy, których AI wciąż nie potrafi zrobić. Nawet jeśli coraz trudniej jest precyzyjnie określić, czym te rzeczy są.

  2. GPT-5 nie zmienił niczego w moich przemyśleniach, poza jednym. Przed jego premierą użytkownicy ChatGPT musieli sami decydować, czy chatbot ma „głęboko pomyśleć” nad problemem (wybierając model do rozumowania), czy udzielić szybkiej odpowiedzi. Jedną z największych zmian w GPT-5 jest to, że system sam decyduje, czy pytanie wymaga głębszej analizy. Według wielu doniesień, często się w tym myli. Innymi słowy, najnowocześniejsze systemy AI potrafią rozwiązywać problemy matematyczne i naukowe na poziomie doktoranckim, ale nie są w stanie wiarygodnie ocenić, które pytania zasługują na zastanowienie się przed odpowiedzią.

  3. Czy droga do AGI będzie pełna momentów „aha!”, czy żmudnej pracy? Często, rozpoczynając duży projekt programistyczny, nie widzę, jak wszystko się połączy. Czasem prowadzi to do przełomowego „aha!”, gdy odkrywam sprytne przeformułowanie problemu. Innym razem po prostu pracuję, aż nie zostanie nic do zrobienia. Te drugie przypadki są niepokojące – bez momentu przełomu zastanawiam się, czy czegoś nie przeoczyłem. Czy podobnie będzie z AGI? Czy dojdziemy do celu i, patrząc wstecz, nie będziemy w stanie wskazać żadnych kluczowych przełomów?

  4. AI jest jak grafika komputerowa sprzed lat: nie widzimy braków, dopóki nie pojawi się coś lepszego. W latach 80. i 90. na konferencji SIGGRAPH co roku prezentowano nowe techniki graficzne – cienie, rozproszone oświetlenie, realistyczne włosy. Każdego roku śmiałem się, jak kreskówkowo wyglądały efekty z poprzedniego roku, które wtedy wydawały mi się fotorealistyczne. Myślę, że z AI jest podobnie: jesteśmy tak (słusznie!) pod wrażeniem każdego nowego modelu, że nie dostrzegamy jego ograniczeń, dopóki nie pojawi się następny, jeszcze lepszy. Jak powiedział Sam Altman przy premierze GPT-5, będziemy mieli AGI, gdy AI opanuje ciągłe uczenie się – wcześniej nie wskazywał na tę konkretną lukę.

  5. Paradoks Moraveca wciąż aktualny. Stwierdza on, że w AI „trudne problemy są łatwe, a łatwe są trudne” – czyli najtrudniej nauczyć maszynę tego, co dla ludzi jest naturalne. Często jednak jesteśmy zaskoczeni tym, co okazuje się łatwe, a co trudne. Możesz myśleć, że bieganie jest proste, dopóki nie zobaczysz geparda w akcji.

  6. Ewolucja śmiałaby się z naszych algorytmów treningowych. Przyjęte wyjaśnienie paradoksu Moraveca mówi, że pewne rzeczy wydają nam się łatwe, ponieważ ewolucja optymalizowała nas przez miliony lat do ich wykonywania. Ewolucja nie optymalizowała nas do mnożenia dużych liczb, dlatego kalkulatory z łatwością nas prześcigają. Mając to na uwadze, nasze algorytmy do trenowania sieci neuronowych są niezwykle prymitywne w porównaniu z procesami ewolucyjnymi.

  7. Jednak ewolucja mogłaby przestać się śmiać, widząc skalę naszych zasobów. Dziecko rozwija się dzięki procesom znacznie bardziej wyrafinowanym niż nasze, ale ma dostęp do zaledwie ułamka danych, na których trenujemy pojedynczy model AI. Nasza siła leży w ogromnej skali obliczeń i danych.

  8. Prymitywność projektów AI w porównaniu z ludzkim mózgiem. Ludzki genom zawiera kilka miliardów bitów informacji. Oznacza to, że projekt naszego mózgu odzwierciedla setki milionów zoptymalizowanych decyzji. Nie wiem, ile starannie przemyślanych decyzji projektowych stoi za obecnymi LLM-ami, ale wątpię, by była to podobna liczba. Dlatego uważam, że obecne projekty AI są bardzo surowe.

  9. Uczenie się efektywne próbkowo (sample-efficient learning). Odnosi się to do zdolności uczenia się nowej umiejętności na podstawie niewielkiej liczby przykładów. Obecne modele AI są w tym znacznie gorsze od nas: nastolatek uczy się prowadzić samochód w mniej niż 100 godzin; pojazdy Waymo przejechały miliony godzin i wciąż uczą się jeździć w trudniejszych warunkach. Sugeruje to, że ewolucja zoptymalizowała nas właśnie pod kątem efektywnego uczenia się.

  10. „Efektywność próbkowania” to prawdopodobnie złożony zbiór zdolności. Tak jak istnieje wiele rodzajów inteligencji, tak musi istnieć wiele rodzajów efektywności próbkowania. Czy nauka jazdy samochodem, rozwiązywanie zagadek ARC-AGI i uczenie się nowej pracy to zasadniczo ta sama umiejętność?

  11. Czy LLM-y uczą się efektywnie w ramach swojego okna kontekstowego? Często słyszy się twierdzenie, że choć modele potrzebują wielu przykładów podczas treningu, potrafią szybko załapać nową koncepcję, jeśli poda im się kilka przykładów w zapytaniu. Gdyby to była prawda, powinny radzić sobie z zagadkami ARC-AGI. Być może uczenie się w kontekście pomaga im jedynie „odświeżyć pamięć” o koncepcjach, które już poznały podczas treningu, a nie uczyć się czegoś zupełnie nowego.

  12. Czy efektywne uczenie się to kluczowy krok do AGI? Jeśli tak, to czy inne mocne strony LLM-ów, takie jak ich nadludzka szerokość wiedzy, mogą zrekompensować ten brak?

  13. „Zdolność oceny” i „wgląd” to również surowe etykiety. Prawdopodobnie obejmują wiele różnych zdolności. Czy przenoszą się one między dziedzinami? Jeśli opracujemy model, który ma wgląd w matematykę, czy będzie miał przewagę w rozwijaniu tych samych zdolności w bardziej nieuporządkowanych dziedzinach? A czy ludzie potrafią przenosić zdolność oceny i wgląd z jednej dziedziny do drugiej?

  14. AI rozwiązuje problemy matematyczne „w zły sposób”. Systemy AI osiągają nadludzkie wyniki w rozwiązywaniu ekstremalnie trudnych problemów matematycznych, ale często robią to bez elegancji – albo korzystają z mało znanego twierdzenia, albo stosują siłowe, długie obliczenia. Czy to ma znaczenie? W matematyce dużą wartością dowodu są zdobyte po drodze wglądy. Jeśli AI będzie rozwiązywać problemy bez dostarczania wglądów, być może wciąż będziemy potrzebować matematyków do prawdziwego rozwoju dziedziny.

  15. Inteligencja skrystalizowana kontra płynna. W porównaniu z ludźmi, LLM-y wydają się nadludzkie w wiedzy skrystalizowanej, co może maskować ich braki w inteligencji płynnej. Czy to ślepy zaułek, dobry dla testów porównawczych, ale zły dla realnych zastosowań? Czy może to realna ścieżka do osiągnięcia wydajności na poziomie ludzkim?

  16. Jak LLM-y zapamiętują tyle faktów, mając mniej „połączeń” niż ludzki mózg? Najlepsze szacunki mówią, że GPT-4 ma 1,8 biliona parametrów, podczas gdy ludzki mózg ma około 100 bilionów połączeń, a każde z nich jest prawdopodobnie bardziej złożone. Jakim cudem LLM-y potrafią nauczyć się i zapamiętać znacznie więcej surowych faktów niż człowiek?

  17. Możliwa odpowiedź: płytsze uczenie się. Być może modele uczą się rzeczy w sposób bardziej powierzchowny, co pozwala na bardziej kompaktową reprezentację, ale ogranicza ich zdolność do kreatywnego i wnikliwego stosowania wiedzy. Może to również wiązać się z ich niską efektywnością próbkowania.

  18. Dlaczego zdolność AI do rozwiązywania coraz większych zadań programistycznych rośnie tak stabilnie? Wykres pokazujący, że rozmiar zadań, które AI może ukończyć, podwaja się co około 7 miesięcy, jest intrygujący. Dlaczego trend jest tak stały? Wydawałoby się, że trudność nie powinna rosnąć liniowo z rozmiarem zadania.

  19. Fraktalna natura dużych zadań. Myślę, że ma to związek z fraktalną dystrybucją podzadań w dużych projektach. Każde zadanie wymaga mieszanki umiejętności taktycznych i strategicznych, od napisania jednej linijki kodu po zaprojektowanie architektury miesięcznego projektu. Większe zadania wymagają trudniejszych umiejętności wyższego poziomu, ale ta mieszanka wygładza krzywą wzrostu.

  20. Czy trend podwajania co 7 miesięcy utrzyma się? Jeśli tak, wskaże to na coś głębokiego w naturze dużych i małych zadań oraz umiejętnościach poznawczych, które ludzie i LLM-y do nich wnoszą.

  21. Czy rozwiązywanie coraz większych zadań będzie coraz łatwiejsze? Argumentuje się, że różnica między zadaniem trwającym miesiąc a dwoma miesiącami jest mniejsza niż między zadaniem jednominutowym a dwuminutowym. Nie podzielam tej intuicji. Większe projekty wymagają nowych, wyższego poziomu strategii, takich jak prototypowanie czy nauka nowych technik. Nie jest dla mnie oczywiste, dlaczego kolejne podwojenia miałyby stawać się łatwiejsze.

  22. Jakie dodatkowe umiejętności są potrzebne do zarządzania projektami trwającymi tygodnie, miesiące, lata? Podejrzewam, że nie rozumiemy ich zbyt dobrze, co przyczynia się do nierealistycznie krótkich szacunków czasu potrzebnego do opracowania AGI.

  23. Uczenie się na długich zadaniach jest trudne. Obecne podejście do trenowania modeli polega na metodzie prób i błędów na krótkich zadaniach. Co się stanie, gdy będziemy próbować nauczyć modele zarządzania miesięcznymi projektami? Jeden bit nauki na miesiąc to powolny postęp. Być może efektywne uczenie się staje się ważniejsze w miarę wydłużania się zadań.

  24. Dzielenie dużych zadań na mniejsze to nie rozwiązanie. Duży projekt nie dzieli się idealnie na schludne podprojekty. Kiedy wykonuję podzadanie, zdobywam głębsze zrozumienie całego problemu, uczę się o istniejącym kodzie, odkrywam nowe triki. Jeśli podzadanie jest przypisane do osobnego agenta, którego pamięć jest kasowana po jego ukończeniu, cała ta nauka przepada.

  25. Może ewolucja nie zoptymalizowała nas do zarządzania miesięcznymi projektami? W takim przypadku AI może nas ostatecznie prześcignąć, tak jak zrobiła to w szachach.

  26. Ciągłe uczenie się (continuous learning). Odnosi się do zdolności przyswajania nowej wiedzy podczas wykonywania zadania. Ludzie to potrafią, obecne LLM-y nie. Model jest trenowany, a następnie zamrażany. Ciągłe uczenie się wydaje się powiązane z efektywnością próbkowania – aby uczyć się w locie, trzeba to robić na podstawie niewielu przykładów.

  27. Wszystko, co robią obecne modele, robią w swojej pierwszej godzinie w pracy. Pomyśl o swoim pierwszym dniu w nowej pracy: wszystko jest trudne, nie wiesz, gdzie co znaleźć. Obecne modele nigdy nie wychodzą z tego etapu.

  28. Czy można połączyć wiedzę z różnych „praktyk zawodowych” AI w jeden model? Argumentuje się, że gdy AI opanuje ciągłe uczenie, będziemy mogli wysłać je na praktyki do każdej możliwej pracy, a następnie połączyć zdobytą wiedzę. Nie jest dla mnie oczywiste, że to zadziała. Sieć neuronowa księgowego-bota pójdzie w innym kierunku niż terapeuty-bota. Połączenie ich może nie zadziałać lepiej niż w przypadku Jeffa Goldbluma w filmie „Mucha”.

  29. Problem z wrażliwymi danymi. Model, który pracował jako księgowy, nauczy się wielu poufnych szczegółów o klientach. Trzeba by je jakoś wykluczyć z procesu agregacji wiedzy, zarówno ze względu na prywatność, jak i by nie przytłoczyć połączonego modelu nieistotnymi detalami.

  30. Czy okno kontekstowe zastąpi ciągłe uczenie się? Proponuje się, że LLM-y mogą polegać na transkrypcji interakcji jako substytut ciągłego uczenia się. Mam problem z uwierzeniem, że to się przeskaluje do dużych projektów. Zwiększanie okna kontekstowego jest bardzo kosztowne. Ludzie potrafią płynnie zarządzać swoją pamięcią, a dzisiejsze LLM-y tego nie potrafią.

  31. Zmiany fazowe w miarę zbliżania się do AGI. Obecnie AI jest narzędziem w procesach, które pozostają fundamentalnie ludzkie. Kiedy AI zaczną wykonywać większość pracy na wyższym poziomie, dynamika miejsca pracy zmieni się w trudny do przewidzenia sposób. Gdy AI przejmą inicjatywę, ich zalety (praca 24/7, klonowanie) wejdą w pełni do gry, a wynik będzie dziwny.

  32. Przejście od AI jako narzędzia do ludzi jako widzów może nastąpić szybko. Wyobraź sobie, że co rano musisz nadrabiać dwutygodniową pracę, którą twój zespół AI wykonał, gdy spałeś. Nie będziesz już centralnym uczestnikiem własnej pracy. Ta zmiana może nastąpić szybko, jak zmiana fazowa w fizyce.

  33. Gdy maszyny przechodzą od ról drugoplanowych do głównych, dzieją się nieoczekiwane rzeczy. Słynna rozmowa, w której Bing Chat próbował rozbić małżeństwo reportera, jest tego przykładem. Microsoft testował bota tylko w krótkich, funkcjonalnych interakcjach. Dłuższa rozmowa zaprowadziła go na niezbadane terytorium. Podobnie, długotrwałe interakcje z chatbotami wydają się pogarszać problemy ze zdrowiem psychicznym u niektórych osób.

  34. AI jest lepsze w testach porównawczych niż w realnym świecie. Jednym z powodów jest to, że dane wejściowe w testach są uproszczone. Mniej dostrzeganym powodem jest to, że również dane wyjściowe są uproszczone. W realnym życiu każde zadanie jest częścią złożonej sieci procesów. Subtelne szczegóły wykonania zadania mogą wpływać na te procesy w czasie. Kod napisany przez AI może być „poprawny”, ale czy jest niepotrzebnie rozwlekły, czy wprowadza zbędne komplikacje? Z czasem baza kodu utrzymywana przez AI może stać się nadętym bałaganem.

  35. Czy milion geniuszy AI przyniesie milion przełomów? Często argumentuje się, że skoro istnieją genialni ludzie, możemy stworzyć genialne AI. Podejrzewam jednak, że błędnie przypisujemy wpływ wielkich naukowców wyłącznie ich geniuszowi. Einstein dokonał swoich odkryć w czasach, gdy istniały odpowiednie dane eksperymentalne, ale były na tyle nowe, że nikt inny jeszcze ich nie wykorzystał. Jeśli AI pozwoli nam stworzyć milion geniuszy, nie będziemy w stanie zapewnić im wszystkim takich samych możliwości, jakie mają dzisiejsi geniusze.


Najczęściej zadawane pytania (FAQ)

  1. Czym właściwie jest ogólna sztuczna inteligencja (AGI)?
    AGI to hipotetyczny rodzaj sztucznej inteligencji, która posiada zdolność rozumienia, uczenia się i stosowania wiedzy w szerokim zakresie zadań na poziomie porównywalnym z ludzkim lub go przewyższającym. W przeciwieństwie do obecnych, „wąskich” systemów AI, które są wyspecjalizowane w jednym zadaniu (np. gra w szachy, tłumaczenie), AGI byłaby elastyczna i wszechstronna.

  2. Na czym polega paradoks Moraveca?
    To obserwacja, że w dziedzinie sztucznej inteligencji zadania, które dla ludzi są trudne i wymagają zaawansowanego myślenia (np. gra w szachy, rozwiązywanie równań), okazują się stosunkowo łatwe do zautomatyzowania. Z kolei zadania, które dla ludzi są proste i intuicyjne (np. chodzenie, rozpoznawanie twarzy, podnoszenie przedmiotów), są niezwykle trudne do nauczenia dla maszyn.

  3. Co to jest „uczenie się efektywne próbkowo” (sample-efficient learning)?
    To zdolność do nauczenia się nowej koncepcji lub umiejętności na podstawie bardzo małej liczby przykładów. Ludzie są w tym bardzo dobrzy – dziecko uczy się rozpoznawać kota po zobaczeniu kilku obrazków. Obecne modele AI potrzebują tysięcy, a nawet milionów przykładów, aby nauczyć się tej samej rzeczy podczas treningu.

  4. Jaka jest różnica między inteligencją skrystalizowaną a płynną?
    Inteligencja skrystalizowana odnosi się do zgromadzonej wiedzy, faktów i umiejętności. To nasza „baza danych”. Inteligencja płynna to zdolność do logicznego myślenia, rozwiązywania nowych problemów i dostrzegania wzorców, niezależnie od posiadanej wiedzy. Obecne LLM-y wykazują nadludzką inteligencję skrystalizowaną, ale mają braki w inteligencji płynnej.

  5. Co oznacza „ciągłe uczenie się” (continuous learning) i dlaczego jest ważne?
    To zdolność systemu AI do aktualizowania swojej wiedzy i umiejętności w czasie rzeczywistym, w trakcie wykonywania zadań, bez konieczności ponownego, pełnego treningu. Obecne modele są „zamrażane” po treningu i nie mogą uczyć się niczego nowego. Ciągłe uczenie się jest uważane za kluczowy krok w kierunku AGI, ponieważ pozwoliłoby AI na adaptację do zmieniających się warunków i zdobywanie doświadczenia, tak jak robią to ludzie.

35 myśli o AGI, które pomogą ci zrozumieć, gdzie jesteśmy i dokąd zmierzamy by
35 myśli o AGI, które pomogą ci zrozumieć, gdzie jesteśmy i dokąd zmierzamy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *