Sztuczne sieci neuronowe vs. kora wzrokowa: dlaczego warto patrzeć im na ręce, gdy patrzą na… złudzenia?
Złudzenia optyczne – od klasycznego trójkąta Kanizsy po zwodnicze „wężowe” spirale – to laboratoria bez ścian. Pokazują, jak mózg i model komputerowy upraszczają, filtrują i przewidują światło docierające do siatkówki lub matrycy aparatu. Jeśli sztuczna inteligencja ma nie tylko „rozpoznawać piksele”, lecz naprawdę widzieć, musi umieć mylić się w ten sam sposób co my – albo umieć wyjaśnić, skąd bierze się różnica. W czasach, gdy głębokie sieci neuronowe (ang. DNN) są podstawą autonomicznych samochodów i systemów diagnostycznych, test konfrontacyjny z iluzjami staje się tak samo istotny jak statyczne benchmarki dokładności.
Jak kora wzrokowa oszukuje samą siebie
W pierwotnej korze wzrokowej (V1) zaskakująco żywo reagują neurony, gdy bodziec jest tylko „domyślony” – na przykład wtedy, gdy podawane są naprzemiennie pasma kontrastu, które obserwator odczytuje jako realny ruch lub zmianę jasności. Najnowsze badania in vivo na myszach wykazały, że jednostki V1 śledzą fazę „nieistniejących” gratings z precyzją podobną do tej wobec bodźców fizycznych, a tłumienie sprzężenia zwrotnego z wyższych obszarów znosi ten efekt, co wskazuje na rolę top-down feedbacku (Nature). Podobne opóźnienia czasowe dla konturów Kanizsy w ludzkim V1 sugerują, że mózg „dorysowuje” elementy sceny z kilkudziesięciomilisekundowym poślizgiem (jneurosci.org).
Czy sztuczne sieci „widzą” to samo?
Modele konwolucyjne trenowane na ImageNet potrafią częściowo odtworzyć złudzenia długości, kąta czy kontrastu, ale zwykle robią to innymi warstwami niż te, które odpowiadają korze V1/V2 w mapowaniu reprezentacji; wskazuje to, że architektura feed-forward uczy się heurystyk, nie zaś biologicznego algorytmu (MDPI, MDPI). Bardziej obiecujące wyniki dają sieci rekurencyjne i predykcyjne (np. PredNet), które odtwarzają ruch pozorny w iluzji „Rotating Snakes” niemal jeden do jednego z percepcją ludzką (Frontiers). Z kolei hybrydowe modele z tunelowaniem kwantowym osiągają ludzką zgodność w 90 % zestawu 30 klasycznych iluzji, choć wciąż brakuje im odporności na niewielki szum pikseli (ACM Digital Library).
Anatomia podobieństw i różnic
- Hierarchia vs. głębia – mózg rozkłada zadanie na kolejne obszary z rosnącymi rozmiarami pól recepcyjnych; CNN-y robią to samo, ale brak im fizjologicznego rozróżnienia komórek prostych-złożonych i ścieżki dorsal/ventral. Dlatego sieć może „złapać” iluzję kontrastu (Hermann grid), a polec w obliczu subtelnej zmiany kąta (złudzenie Zöllnera).
- Sprzężenie zwrotne – V1 otrzymuje ~80 % sygnału z wyższych pięter kory; większość popularnych DNN jest czysto feed-forward. Dodanie pętli rekurencyjnej zwiększa zgodność zachowania z neuronami o 20-30 % według symulacji psychofizycznie strojonego modelu kory (ScienceDirect).
- Energooszczędne kodowanie – złudzenia, takie jak tilt czy brightness, można wyjaśnić jako kompromis między precyzją a kosztem metabolicznym. Sieci również stosują kompresję informacji (dropout, kwantyzacja), ale ich funkcja kosztu nie karze „błędnych priors”, stąd podatność na ataki adversarialne, które przypominają „hiper-iluzje” poza ludzkim zakresem percepcji (Nature).
Po co to komu?
Dla neurobiologii – różnice uczą, które elementy architektury (np. sprzężenie zwrotne, lokalne hamowanie lateralne, normalizacja dywizoryjna) są niezbędne do świadomego wrażenia. Dla inżynierii – zgodność z iluzjami to test transferowalności. System, który myli tilt illusion jak człowiek, rzadziej da się obejść prostym szumem. Dla psychologii – modele generujące iluzje otwierają drogę do przewidywania subiektywnej jasności lub ruchu bez raportu słownego.
Perspektywy i ograniczenia
Choć sieci coraz lepiej „rozumieją” iluzje, pełna konwergencja wymaga integracji dynamiki czasu (oscylacje γ), neuromodulacji (ACh, NA) oraz uczenia w środowisku multimodalnym. W badaniach in vivo widać też, że ten sam neuron może odpowiadać odwrotnie na iluzję w zależności od stanu uwagi – tego zjawiska nie ma jeszcze w modelach.

Na tej podstawie proponujemy następujący, rozbudowany i metodologicznie spójny pomysł na pracę doktorską: zaprojektować wielogatunkowy (mysz–makak–człowiek) i wielomodalny (elektrofizjologia, fMRI 7 T, MEG) protokół prezentacji dynamicznych iluzji generowanych ad-hoc przez sieć generatywną trenowaną kontrastowo z PredNet. W pierwszym etapie algorytm diffusion-GAN wyprodukuje ciągi bodźców minimalnie różniących się statystyką, lecz skokowo zmieniających wrażenie iluzoryczne; w drugim etapie te same bodźce oceniane będą przez gęstą siatkę głębokich sieci (ResNet-50, Vision-Transformer, PredNet-RNN) pod kątem wzorców aktywacji i gradientów błędu. Równolegle nagrywane sygnały neuronalne zostaną poddane analityce reprezentational similarity analysis oraz dynamicznym modelom przyczynowości, aby określić, które parametry generatora maksymalizują korelację mózg–model. Porównując te korelacje w czasie (0-300 ms) i przestrzeni (V1→V4→IT) z wagami sieci, praca przyniesie mapę „punktów styku” i „pól konfliktu” między künstlich a korą, wskazując dokładnie, które mechanizmy – lateralne hamowanie, predykcyjne sprzężenie zwrotne czy kodowanie skompresowane – trzeba zaimplementować w algorytmach, by osiągnąć pełną zgodność percepcyjną. Sukces projektu da zarówno neurobiologom nowe narzędzie do wnioskowania o kierunkowości sygnału top-down, jak i inżynierom wymierne wytyczne konstrukcyjne dla kolejnej generacji modeli odpornej, „ludzkiej” sztucznej percepcji.
Sztuczne sieci neuronowe vs. kora wzrokowa: Porównanie mechanizmów rozpoznawania iluzji optycznych by www.doktoraty.pl