Wzrok to nie wszystko. Jak nauczyliśmy maszynę czytać w intencjach, by zwrócić wolność

Dla milionów ludzi na całym świecie, dotkniętych ciężkimi schorzeniami ruchowymi, takimi jak stwardnienie zanikowe boczne (ALS), tetraplegia czy zaawansowane stwardnienie rozsiane, codzienna mobilność jest fundamentalnym wyzwaniem. Standardowe kontrolery wózków inwalidzkich, jak joystick czy systemy „sip-and-puff” (sterowanie dmuchnięciem i zassaniem), stają się dla nich bezużyteczne. To technologiczne uwięzienie, które ogranicza nie tylko fizyczną swobodę, ale także godność i niezależność. Właśnie dlatego podjęliśmy się zadania, które brzmi jak science-fiction: stworzenia systemu, który pozwala sterować wózkiem nie tylko za pomocą wzroku, ale przede wszystkim – za pomocą świadomej intencji.

Innowacyjny wózek inwalidzki z systemem śledzenia wzroku i sensorami 3D, demonstrujący technologię sterowania intencją w praktyce.

Przełom w interakcji człowiek-maszyna: problem „dotyku Midasa”

Dotychczasowe próby sterowania wózkiem za pomocą wzroku napotykały na fundamentalną przeszkodę, znaną jako problem „dotyku Midasa”. W mitologii wszystko, czego dotknął król Midas, zamieniało się w złoto. W technologii sterowania wzrokiem, wszystko, na co spojrzał użytkownik, stawało się komendą. To nienaturalne i niezwykle męczące. Nasze oczy nieustannie skanują otoczenie, zbierają informacje, błądzą. Gdyby każde spojrzenie miało inicjować ruch, nawigacja stałaby się chaotycznym koszmarem, a użytkownik musiałby nienaturalnie kontrolować swój wzrok.

 

Rozwiązaniem nie jest więc śledzenie, gdzie patrzy użytkownik, ale zrozumienie, dlaczego tam patrzy. Naszym celem było nauczenie maszyny odróżniania pasywnego, eksploracyjnego spojrzenia od aktywnej, świadomej intencji interakcji z otoczeniem.

Jak działa technologia intencji – krok po kroku

Nasz system to zaawansowana, semi-autonomiczna platforma, która integruje percepcję otoczenia, śledzenie wzroku i sztuczną inteligencję w jeden spójny organizm. Działa on w trzech kluczowych krokach:

Krok 1: Oczy widzą, maszyna rozumie przestrzeń
Podstawą systemu jest widzenie stereoskopowe. Wykorzystujemy kamerę RGB-D (podobną do tej z sensora Kinect), która w czasie rzeczywistym tworzy trójwymiarową chmurę punktów, czyli cyfrową mapę otoczenia. Równolegle, zaawansowane eye-trackery (zarówno stacjonarne, jak i w formie okularów) precyzyjnie śledzą, w którym kierunku patrzy użytkownik. System łączy te dwa strumienie danych, aby z milimetrową precyzją określić dokładny punkt w przestrzeni 3D, na który skierowany jest wzrok.

Krok 2: Dekodowanie intencji, a nie tylko spojrzenia
To sedno naszej innowacji. Zamiast traktować każde spojrzenie jako polecenie, nasz system analizuje wzorce zachowania wzroku. Przez miesiące zbieraliśmy dane od użytkowników wykonujących dwa rodzaje zadań:

  • Nieinteraktywne: „spójrz na telewizor”, „rozejrzyj się po pokoju”.

  • Interaktywne: „pomyśl o włączeniu telewizora”, „wyobraź sobie, że chcesz podjechać do drzwi”.

Analizując subtelne różnice w czasie trwania fiksacji, ruchach sakadycznych (szybkich ruchach gałki ocznej) i ogólnej dynamice spojrzenia, wytrenowaliśmy szereg klasyfikatorów opartych na uczeniu maszynowym (m.in. SVM, k-NN). Okazało się, że wzorce te są na tyle odmienne, że system z wysoką skutecznością (sięgającą ponad 80%) potrafi odróżnić zwykłe patrzenie od chęci podjęcia działania.

Krok 3: Od myśli do czynu – autonomiczna nawigacja
Gdy system zidentyfikuje wysokopoziomową intencję poznawczą (np. „chcę podjechać do laptopa”), przejmuje kontrolę nad zadaniami niskiego poziomu. Użytkownik nie musi już myśleć o omijaniu krzesła czy planowaniu trasy. Platforma, wykorzystując algorytmy SLAM (jednoczesnej lokalizacji i mapowania) oraz zmodyfikowany algorytm Dijkstry, samodzielnie wyznacza optymalną ścieżkę, omija dynamiczne i statyczne przeszkody (jak inni ludzie czy meble) i bezpiecznie dowozi użytkownika do celu.

To kluczowe, ponieważ uwalnia zasoby poznawcze użytkownika. Może on w trakcie jazdy swobodnie rozmawiać, rozglądać się, a wózek nie zareaguje, dopóki nie wykryje kolejnej, świadomej intencji.

Wyniki, które mówią same za siebie

Nasze badania, prowadzone zarówno z udziałem osób zdrowych, jak i pilotów z paraplegią i tetraplegią, wykazały ogromny potencjał tej technologii. System nie tylko skutecznie rozwiązuje problem „dotyku Midasa”, ale także znacząco skraca czas potrzebny na wykonanie zadań nawigacyjnych i redukuje liczbę błędów w porównaniu do wcześniejszych interfejsów opartych na wzroku.

Udało nam się z powodzeniem sklasyfikować intencje użytkowników w odniesieniu do różnych obiektów, co pokazuje skalowalność naszego rozwiązania.

Obiekt Najlepszy klasyfikator Dokładność
Telewizor Fine Gaussian Support Vector Machine 78.80%
Laptop Weighted K-Nearest Neighbors 86.20%
Krzesło Weighted K-Nearest Neighbors 84.80%

Co ciekawe, system łatwiej dekoduje intencje wobec obiektów o większej liczbie potencjalnych punktów interakcji (jak laptop z klawiaturą i ekranem) niż wobec obiektów oglądanych pasywnie z daleka (jak telewizor).

To nie fantastyka – to przyszłość, która dzieje się teraz

Stworzona przez nas platforma to coś więcej niż tylko wózek inwalidzki. To interfejs „Zero-UI” – interfejs bez interfejsu, który eliminuje potrzebę ciągłego skupiania się na ekranach czy przyciskach. To krok w kierunku prawdziwie symbiotycznej relacji między człowiekiem a maszyną, gdzie technologia staje się intuicyjnym przedłużeniem woli. Przywracamy nie tylko mobilność, ale także swobodę poznawczą i możliwość naturalnego uczestnictwa w życiu społecznym. Praca nad tym projektem to dowód, że granice tego, co możliwe, istnieją po to, by je przesuwać, a przyszłość technologii asystujących dzieje się na naszych oczach.


5 innych tematów, które zrealizowaliśmy w ramach naszych badań

  1. Neuronaukowe podstawy sterowania protezami: Opracowanie neuro-mechanicznego interfejsu do głębokiej stymulacji w chorobie Parkinsona.

  2. Technologia w sporcie paraolimpijskim: Stworzenie systemu sterowania w zamkniętej pętli dla funkcjonalnej elektrostymulacji (FES) w kolarstwie.

  3. Wskazywanie intencji ruchu w oparciu o dane wideo: Opatentowanie algorytmu do analizy sceny wideo w celu predykcji kierunku poruszania się.

  4. Zastosowanie nanotechnologii w medycynie: Projekt systemu cewki do kontrolowanej hipertermii płynem magnetycznym w badaniach mikroskopowych.

  5. Biologia i Big Data: Metagenomiczna analiza danych z Oceanu Południowego w celu predykcji funkcji metabolicznych mikroorganizmów przy użyciu uczenia maszynowego.


Nowy pomysł na doktorat

Tytuł: Bezkontaktowe dekodowanie intencji nawigacyjnych w czasie rzeczywistym poprzez multimodalną fuzję danych neurofizjologicznych (EEG) i wzorców spojrzenia w systemach asystujących.

Opis: Obecny system wymaga od użytkownika ostatniego, świadomego gestu (np. mrugnięcia) w celu potwierdzenia intencji. Projekt doktorancki skupiłby się na całkowitym wyeliminowaniu tego kroku poprzez stworzenie w pełni pasywnego interfejsu mózg-komputer (BCI). Badania polegałyby na jednoczesnym zbieraniu danych z eye-trackera oraz elektroencefalografu (EEG) w trakcie wykonywania zadań interaktywnych i nieinteraktywnych. Celem byłoby stworzenie i wytrenowanie głębokiej sieci neuronowej (np. hybrydy CNN-LSTM), która na podstawie fuzji danych o wzorcach spojrzenia oraz sygnałów neuronalnych związanych z gotowością do działania (np. potencjału Bereitschaftspotential) potrafiłaby z wysoką dokładnością dekodować intencję nawigacyjną bez żadnego świadomego sygnału ze strony użytkownika. Doktorat wniósłby fundamentalny wkład w rozwój prawdziwie „bezdotykowych” i „bezgestowych” interfejsów, przesuwając granicę między myślą a działaniem w interakcji człowiek-maszyna.

Koniec z barierami. Ten wózek inwalidzki wie, dokąd chcesz jechać, zanim mu powiesz by
Koniec z barierami. Ten wózek inwalidzki wie, dokąd chcesz jechać, zanim mu powiesz

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *