W świecie medycyny, gdzie stawka jest najwyższa, a decyzje opierają się na złożonej mozaice danych – od narracji pacjenta, przez wyniki laboratoryjne, po obrazy z rezonansu magnetycznego – sztuczna inteligencja właśnie przekroczyła kluczowy próg. Nowe, recenzowane badanie z Emory University School of Medicine, oceniające zdolności modelu GPT-5, dostarcza twardych dowodów na to, że wkraczamy w nową erę.
To już nie jest kwestia, czy AI może dorównać ludzkim ekspertom. W kontrolowanych, ale wymagających warunkach testowych, GPT-5 systematycznie przewyższa wyszkolonych profesjonalistów medycznych, zwłaszcza w najtrudniejszych zadaniach wymagających jednoczesnej interpretacji tekstu i obrazów. To fundamentalna zmiana, która redefiniuje potencjał klinicznych systemów wspomagania decyzji.
Główne odkrycie: Od ludzkiej porównywalności do nadludzkiej biegłości
Analiza przeprowadzona przez zespół pod kierownictwem Xiaofenga Yanga pozycjonuje GPT-5 jako generalistyczny, multimodalny system zdolny do rozumowania na poziomie eksperckim bez potrzeby specjalistycznego dostrajania. Kluczowe odkrycie jest jednoznaczne:
W porównaniu do poprzedniej generacji (GPT-4o), która w wielu zadaniach medycznych pozostawała poniżej poziomu ludzkich ekspertów, GPT-5 nie tylko niweluje tę różnicę, ale znacząco ją przekracza. To jakościowy skok od „AI jako asystenta” do „AI jako super-eksperta”.
Metodologia: Rygorystyczny test w ujednoliconym środowisku
Siła tego badania leży w jego rygorystycznej metodologii, która eliminuje chaos i niespójności poprzednich ewaluacji LLM-ów.
-
Ujednolicony protokół: Wszystkie modele (GPT-5, jego mniejsze warianty i GPT-4o) były testowane w tych samych warunkach, przy użyciu tej samej, zero-shotowej strategii promptowania z łańcuchem myśli (Chain-of-Thought, CoT).
-
Izolacja zmiennej: Taki projekt pozwala na precyzyjne wyizolowanie wpływu samego ulepszenia modelu, eliminując efekt inżynierii promptów czy specyfiki zbioru danych.
-
Kompleksowe benchmarki: Badanie objęło szerokie spektrum zadań, od tekstowych pytań egzaminacyjnych (MedQA, USMLE) po złożone, multimodalne problemy kliniczne (MedXpertQA, VQA-RAD).
Kluczowe wyniki: Dowody na przełom
Dane liczbowe mówią same za siebie, ale najważniejsza jest historia, którą opowiadają.
1. Rozumowanie tekstowe: Więcej niż odtwarzanie faktów
Na standardowych testach medycznych, takich jak MedQA i USMLE, GPT-5 osiągnął wyniki przekraczające 95%, co znacząco przewyższa progi zdawalności dla ludzi. Co ważniejsze, największe zyski odnotowano w zadaniach wymagających wieloetapowego wnioskowania (np. USMLE Step 2, MedXpertQA Text), co sugeruje, że siłą modelu nie jest tylko pamięć, ale zdolność do logicznego rozumowania klinicznego.
2. Rozumowanie multimodalne: Prawdziwy skok jakościowy
To tutaj GPT-5 pokazał swoją prawdziwą moc. W teście MedXpertQA Multimodal, który wymaga jednoczesnej analizy obrazów medycznych (np. tomografii komputerowej) i złożonej historii pacjenta, model osiągnął dramatyczny wzrost wydajności w porównaniu do GPT-4o:
-
Wzrost zdolności rozumowania o +29,62%
-
Wzrost zdolności zrozumienia o +36,18%
Oznacza to, że model potrafi syntetyzować wskazówki wizualne (np. zmiany na obrazie TK) z danymi tekstowymi (objawy, wyniki laboratoryjne), tworząc spójny łańcuch diagnostyczny i rekomendując trafne interwencje.
3. Porównanie z ludźmi: Przekroczenie krytycznego progu
Najbardziej uderzające wyniki pochodzą z bezpośredniego porównania z ludzkimi ekspertami (lekarzami przed uzyskaniem licencji).
| Model / Ekspert | Rozumowanie (Tekst) | Zrozumienie (Tekst) | Rozumowanie (Multimodal) | Zrozumienie (Multimodal) |
| Ekspert (człowiek) | 41.74% | 45.44% | 45.76% | 44.97% |
| GPT-4o (2024) | 30.63% (↓11.11%) | 29.54% (↓15.90%) | 40.73% (↓5.03%) | 48.19% (↑3.22%) |
| GPT-5 | 56.96% (↑15.22%) | 54.84% (↑9.40%) | 69.99% (↑24.23%) | 74.37% (↑29.40%) |
Wniosek jest jednoznaczny: GPT-4o był w większości zadań gorszy od ludzkich ekspertów. GPT-5 jest od nich znacząco lepszy, a przewaga ta jest największa w zadaniach multimodalnych, gdzie nawet doświadczeni klinicyści mają trudności z integracją tak wielu informacji pod presją czasu.
Implikacje i odpowiedzialna perspektywa
Autorzy badania słusznie podkreślają, że wyniki te, choć imponujące, zostały uzyskane w wyidealizowanych warunkach testowych. Realna praktyka kliniczna niesie ze sobą niepewność, złożoność i wymiar etyczny, których benchmarki nie są w stanie w pełni oddać.
Jednakże, ten przełom przesuwa debatę z pytania „czy AI może to zrobić?” na „jak możemy bezpiecznie i transparentnie zintegrować te zdolności z przepływem pracy klinicznej?”. Prace nad walidacją kliniczną, adaptacyjnymi strategiami dostrajania i metodami kalibracji stają się teraz absolutnym priorytetem.
Kluczowe wnioski
-
GPT-5 stanowi jakościowy skok w medycznym AI, przechodząc od poziomu porównywalnego z człowiekiem do poziomu go przewyższającego w kontrolowanych testach.
-
Największy przełom dotyczy rozumowania multimodalnego, czyli zdolności do integracji danych tekstowych i wizualnych w celu postawienia spójnej diagnozy.
-
Siła modelu leży w zaawansowanym rozumowaniu, a nie tylko w odtwarzaniu faktów, co potwierdzają wyniki na testach wymagających wieloetapowego wnioskowania.
-
Badanie to wyznacza nowy standard metodologiczny dla oceny LLM-ów w medycynie, kładąc nacisk na rygor, kontrolę i ujednolicone protokoły.
-
Wyniki te sygnalizują, że era praktycznych, wysokowydajnych klinicznych systemów wspomagania decyzji jest bliżej niż kiedykolwiek, jednocześnie podkreślając pilną potrzebę badań nad ich bezpiecznym wdrożeniem.