Multimodalna sztuczna inteligencja, dostępna w formie publicznych chatbotów, jest coraz częściej używana przez lekarzy, stażystów, a nawet pacjentów do interpretacji obrazów medycznych. Marketingowe doniesienia o „eksperckim poziomie” działania AI budzą ogromne nadzieje, ale jednocześnie rodzą poważne obawy o bezpieczeństwo. Czy możemy ufać maszynie w kwestii naszego zdrowia? Potrzebny jest rygorystyczny test, który zweryfikuje te obietnice nie na prostych, podręcznikowych przykładach, ale na najtrudniejszych przypadkach, które stanowią wyzwanie nawet dla doświadczonych specjalistów.


Ostatni egzamin z radiologii: czy AI jest gotowa, by zastąpić lekarza?

Wielkie modele językowe (LLM) potrafiące analizować obrazy zrewolucjonizowały wiele dziedzin, a medycyna jest jedną z tych, w których pokłada się największe nadzieje. Jednak dotychczasowe oceny skuteczności AI w radiologii często opierały się na publicznych zbiorach danych, które nie odzwierciedlają złożoności realnej pracy klinicznej. Nowe badanie, nazwane „Ostatnim Egzaminem z Radiologii” (RadLE), rzuca brutalnie szczere światło na obecne możliwości czołowych modeli AI w starciu z najtrudniejszymi wyzwaniami diagnostycznymi.

Ostatni egzamin z radiologii: AI kontra człowiek na najtrudniejszych przypadkach

Benchmark stworzony, by testować granice

Naukowcy stworzyli unikalny zestaw testowy – benchmark składający się z 50 trudnych przypadków diagnostycznych. Nie były to typowe, łatwe do rozpoznania patologie. Zestaw celowo skonstruowano z rzadkich, subtelnych i nietypowych schorzeń, które w codziennej praktyce i na egzaminach specjalizacyjnych odróżniają prawdziwego eksperta od nowicjusza.

Do tego „egzaminu” przystąpiły trzy grupy:

  1. Doświadczeni radiolodzy z certyfikacją specjalizacyjną.

  2. Lekarze w trakcie szkolenia (rezydenci radiologii).

  3. Pięć najnowocześniejszych modeli AI (w tym GPT-5, Gemini 2.5 Pro, Grok-4 i Claude Opus 4.1), testowanych przez ich publicznie dostępne interfejsy, co miało naśladować realne warunki ich użycia.

Każdy z uczestników miał za zadanie postawić jedną, ostateczną diagnozę na podstawie pojedynczego obrazu, bez dostępu do dodatkowych danych klinicznych.

Wyniki: przepaść między człowiekiem a maszyną

Wyniki badania są jednoznaczne i pokazują ogromną różnicę w skuteczności diagnostycznej między ludzkimi ekspertami a obecną generacją sztucznej inteligencji.

Uczestnik Średnia trafność diagnostyczna
Certyfikowani radiolodzy 83%
Radiolodzy w trakcie szkolenia 45%
GPT-5 (najlepszy model AI) 30%
Gemini 2.5 Pro 29%
OpenAI o3 23%
Grok-4 12%
Claude Opus 4.1 (najsłabszy model AI) 1%

Dane te pokazują, że nawet najnowszy model AI, GPT-5, osiągnął wynik znacznie niższy niż lekarze w trakcie specjalizacji i prawie trzykrotnie gorszy od doświadczonych radiologów. Różnica w wydajności jest ogromna i statystycznie istotna. Co więcej, badanie pokazało, że nawet w trybie „wysokiego wysiłku”, który wymaga od AI znacznie więcej czasu na analizę (ponad 6-krotnie dłużej), trafność diagnostyczna GPT-5 wzrosła zaledwie o 1 punkt procentowy.

Dlaczego AI zawodzi? Taksonomia błędów w rozumowaniu wizualnym

Aby zrozumieć, dlaczego AI popełnia błędy, naukowcy przeanalizowali jej „procesy myślowe” i stworzyli taksonomię typowych błędów, inspirowaną klasyfikacją błędów w ludzkiej radiologii.

  1. Błędy percepcyjne (AI nie widzi lub widzi za dużo):

    • Niedostrzeganie (Under-detection): Najczęstszy błąd. AI po prostu nie zauważa widocznej na obrazie patologii.

    • Nadinterpretacja (Over-detection): AI z dużą pewnością siebie opisuje zmiany, których w rzeczywistości nie ma na obrazie (forma „halucynacji”).

    • Błędna lokalizacja (Mislocalization): AI poprawnie identyfikuje anomalię, ale przypisuje ją do niewłaściwej lokalizacji anatomicznej.

  2. Błędy interpretacyjne (AI źle rozumie to, co widzi):

    • Błędna atrybucja: AI poprawnie identyfikuje wzorzec wizualny, ale błędnie łączy go z niewłaściwym procesem chorobowym.

    • Przedwczesne zamknięcie diagnostyczne: Model zbyt szybko skupia się na jednej hipotezie, ignorując inne, bardziej prawdopodobne możliwości, co jest odpowiednikiem ludzkiego błędu poznawczego.

  3. Błędy komunikacyjne (AI jest wewnętrznie sprzeczna):

    • Niezgodność opisu z konkluzją: AI w swoim opisie poprawnie identyfikuje patologiczne cechy, ale w ostatecznym podsumowaniu dochodzi do sprzecznego wniosku (np. stwierdza, że obraz jest prawidłowy).

Badanie pokazuje, że obecne modele AI, mimo imponujących zdolności, wciąż mają fundamentalne problemy z percepcją i rozumowaniem wizualnym w złożonych kontekstach medycznych.

Ostateczny wniosek jest jasny: w trudnych, niejednoznacznych przypadkach, gdzie stawką jest ludzkie zdrowie, doświadczenie i osąd certyfikowanego radiologa pozostają niezastąpione. Sztuczna inteligencja jest obiecującym narzędziem, ale droga do jej bezpiecznego i autonomicznego wykorzystania w diagnostyce jest jeszcze długa.


Najczęściej zadawane pytania (FAQ)

  1. Dlaczego testowano AI na trudnych przypadkach, a nie na typowych?
    Celem badania było przetestowanie granic możliwości AI, a nie jej średniej wydajności. Trudne przypadki są tym, co odróżnia eksperta od nowicjusza i gdzie błąd diagnostyczny ma najpoważniejsze konsekwencje. To test odporności systemu w warunkach, w których wsparcie eksperckie jest najbardziej krytyczne.

  2. Który model AI okazał się najlepszy i najbardziej niezawodny?
    Najwyższą trafność diagnostyczną (30%) osiągnął GPT-5. Co ważne, ten model, wraz z OpenAI o3, wykazał również najwyższą spójność wyników w trzech niezależnych próbach, co jest kluczowe dla wiarygodności w zastosowaniach klinicznych. Z kolei Claude Opus 4.1 okazał się zarówno najmniej trafny, jak i najmniej powtarzalny.

  3. Czy to oznacza, że AI jest bezużyteczna w radiologii?
    Absolutnie nie. Badanie pokazuje ograniczenia obecnych, ogólnego przeznaczenia modeli AI w autonomicznej diagnozie trudnych przypadków. AI wciąż może być niezwykle cennym narzędziem wspomagającym, na przykład w automatyzacji pomiarów, wykrywaniu typowych patologii w badaniach przesiewowych czy w organizacji pracy radiologa.

  4. Jakie są główne zagrożenia związane z obecnym użyciem AI przez pacjentów?
    Pacjenci, korzystając z publicznie dostępnych chatbotów, mogą otrzymać błędną diagnozę (zarówno fałszywie pozytywną, jak i fałszywie negatywną), co może prowadzić do niepotrzebnego lęku lub zignorowania poważnego problemu zdrowotnego. Badanie podkreśla, że interpretacja obrazów medycznych przez AI bez nadzoru eksperta jest obecnie niebezpieczna.

  5. Czy przyszłe wersje AI mogą być lepsze w diagnozie radiologicznej?
    Z pewnością tak. Tempo rozwoju AI jest ogromne. Jednak badanie sugeruje, że fundamentalne błędy percepcyjne mogą wymagać czegoś więcej niż tylko skalowania obecnych architektur. Konieczne mogą być nowe podejścia do projektowania modeli, być może bardziej wyspecjalizowane i trenowane na zweryfikowanych, trudnych przypadkach medycznych.

Ostatni egzamin z radiologii: AI kontra człowiek na najtrudniejszych przypadkach by
Ostatni egzamin z radiologii: AI kontra człowiek na najtrudniejszych przypadkach

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *