Całkiem nieźle pamiętam swoje zaskoczenie sprzed kilku lat, gdy zachęcony przez kolegę zafascynowanego rozwojem AI, poprosiłem wtedy dopiero raczkującą sztuczną inteligencję o opisanie tego, co znajduje się na zdjęciu, które jej przesłałem. Określenie „zdjęcie” w przypadku tego dzieła jest sporym nadużyciem, był to bowiem cyknięty bez namysłu smartfonem fragment mieszkania. Sądziłem, że trochę się pośmieję z tego, co AI wymyśli na podstawie tej garści bezładnych pikseli.

Źle sądziłem. Oprócz dokonania stosunkowo prostych odkryć („zdjęcie przedstawia wnętrze mieszkania”; brawo Sherlocku!) AI rozpoznała ciśniętą w kąt wagę łazienkową (ku mojemu zdziwieniu, bo waga na zdjęciu była mała i niezbyt czytelna) oraz uznała, że mieszkanie prawdopodobnie zawiera kota („domyśliła się” obecności czegoś, czego na zdjęciu de facto nie było, na podstawie miski z karmą i zabawkowej myszy).

 

Nie pośmiałem się więc wtedy, tylko zacząłem zastanawiać, jak to właściwie działa. Jak to możliwe, że maszyna „widzi” obraz i rozpoznaje, co się na nim znajduje? Przecież nie ma oczu ani mózgu – przynajmniej nie w ludzkim, biologicznym rozumieniu – a jednak jakoś określa, że na zdjęciu jest pies czy góra. Ba; rozpoznaje różne obiekty nawet zanim zdjęcie powstanie – ułatwiające ustawianie ostrości systemy wykrywania twarzy i oczu w cyfrowych aparatach fotograficznych i smartfonach stały się już standardem.

 

Co tu widzisz, sztuczna inteligencjo?

 

Na początek warto sobie uświadomić jedno: AI nie rozpoznaje treści obrazu tak, jak robi to człowiek. Nie patrzy na obraz i nie myśli: „O, to miejsce przypomina mi las, w którym spacerowałem w dzieciństwie”. Operuje na liczbach i wzorcach. To, co dla nas jest obrazem, dla AI stanowi zbiór danych – kolorów, kształtów i kontrastów – które da się zinterpretować. Mówiąc jeszcze inaczej, każdy obraz jest dla komputera układem różnobarwnych punktów, z którego można wydobyć informacje.

 

Jak uczymy maszynę rozpoznawać obrazy?

 

Podstawą rozpoznawania obrazów przez AI są tzw. sztuczne sieci neuronowe, a dokładniej ich specjalna odmiana — konwolucyjne sieci neuronowe (ang. Convolutional Neural Network, CNN). Trzeba przyznać, że naukowość tej nazwy robi wrażenie i jest całkiem zasadna: moja odważna próba zgłębienia koncepcji CNN szybko nauczyła mnie pokory i przypomniała, dlaczego matematyka na pewnym poziomie nigdy nie była moją ulubioną dziedziną ;) Na szczęście z perspektywy niniejszych rozważań liczy się przede wszystkim to, że CNN trochę przypominają działanie ludzkiego mózgu (stąd „neuronowe”), choć w rzeczywistości jest to model matematyczny.

 

Wyobraź sobie, że pokazujesz komputerowi milion zdjęć psów. Przy każdym zdjęciu mówisz: „To jest pies”. Komputer analizuje te obrazy, szuka wspólnych cech — kształtu uszu, nosa, futra, układu cieni i kolorów. Po jakimś czasie zaczyna rozpoznawać te wzorce, co pozwala mu zgadywać, że na kolejnym zdjęciu też jest pies — nawet jeśli to zupełnie inna rasa albo czworonóg został uwieczniony w nietypowy sposób. Trenowanie AI pod kątem rozpoznawania obrazów trochę przypomina zatem procesy ćwiczenia jej na materiałach tekstowych: potrzebne są gigantyczne zbiory danych (czyli mnóstwo zdjęć z odpowiednimi podpisami), żeby maszyna nauczyła się kojarzyć określone kształty i wzory z rzeczywistymi obiektami.

 

Pokrótce, AI analizuje obraz warstwa po warstwie. Pierwsze „spojrzenie” ma charakter ogólny: analizowane są obszary kolorów, układ linii oraz jasnych i ciemnych obszarów. Każda kolejna warstwa analizy dotyczy coraz bardziej szczegółowych wzorców. W pewnym sensie proces ten można porównać do analizowania obrazu przez człowieka: przyglądając się czemuś, przechodzimy od ogółu do szczegółów, które przykuwają naszą uwagę. Nauczenie AI tego rodzaju interpretacji wymaga rzecz jasna ogromnej mocy obliczeniowej, nic więc dziwnego, że najnowocześniejsze modele powstają i są trenowane w dużych firmach technologicznych. To dzięki temu możemy na co dzień posługiwać się narzędziami, których działanie zakrawa na magię: robimy zdjęcie, a smartfon po kilku chwilach informuje nas, co ono przedstawia.

 

Rozpoznawanie obrazu – zastosowania praktyczne

 

Ta iście magiczna technologia towarzyszy nam prawie na każdym kroku, nawet jeśli nie zawsze zdajemy sobie z tego sprawę. Gdzie? Oto kilka przykładów.

 

1. OCR i OMR, czyli czytanie z obrazu

 

Zacznę od czegoś, co istnieje już od lat: OCR i OMR. Te pokrewne techniki polegają na rozpoznawaniu napisów i tekstu na zdjęciach lub zeskanowanych dokumentach i przetwarzaniu ich na treść, którą można edytować. AI analizuje obraz pod kątem znaków i na podstawie ich kształtu odgaduje, co zostało napisane. To dzięki temu możemy na przykład zrobić zdjęcie obcojęzycznego menu w restauracji za granicą i poprosić smartfon, by odczytał treść, a następnie ją przetłumaczył. Nieco rzadziej spotykany akronim OMR oznacza technikę rozpoznawania symboli i znaczników, takich jak pola wyboru czy kody kreskowe. Mechanizm ten bardzo ułatwia i przyspiesza automatyczne odczytywanie i weryfikowanie formularzy i innych druków. Postęp w tej dziedzinie jest bardzo widoczny; technologia OCR, choć w różnych formach istnieje już od kilkudziesięciu lat, dopiero w ciągu ostatnich kilkunastu lat osiągnęła dokładność pozwalającą na trafne interpretowanie tekstu nawet na obrazach o niskiej jakości.

 

2. Smartfony i zdjęcia

 

To jedno z najbardziej powszechnych zastosowań rozpoznawania obrazów. Galerie zdjęć w nowoczesnych smartfonach można przeszukiwać pod kątem treści, nawet jeśli zdjęcia nie mają podpisów, a my nie dodaliśmy żadnych etykiet. Na podobnej zasadzie działają systemy rozpoznawania twarzy, ułatwiające oznaczanie uwiecznionych na zdjęciach osób.

 

3. Medycyna

 

Rozpoznawanie obrazów oddaje coraz większe usługi w diagnostyce; AI można zaprząc do analizowania zdjęć rentgenowskich albo obrazów z tomografu lub mikroskopu, pod kątem oznak określonych schorzeń. Ostateczna decyzja należy oczywiście do lekarza, lecz algorytmy pomagają w wychwytywaniu zmian, które mogłyby umknąć (zmęczonym) ludzkim oczom. Już prawie dekadę temu na łamach czasopisma „Nature” (A. Esteva i in., 2017) ukazał się artykuł, zgodnie z którym model oparty na wspomnianych wcześniej CNN i wytrenowany na ponad 100 tysiącach zdjęć klinicznych, okazał się równie skuteczny jak dermatolodzy w odróżnianiu określonego rodzaju zmian nowotworowych skóry od zmian o niegroźnym charakterze.

 

4. Motoryzacja i systemy wspomagania kierowcy

 

No dobrze; powiedzmy, iż większość z nas z własnego doświadczenia wie, że ten medal ma dwie strony… Niekoniecznie cieszą nas bowiem zdjęcia z kamer i fotoradarów, na których widać, jak nasz samochód – rozpoznany na podstawie tablic rejestracyjnych – pięknie skręca w prawo na czerwonym świetle. Zwłaszcza że do tych zdjęć zwykle dołączona jest powiastka z budzącą grozę liczbą punktów karnych i kwotą mandatu. Ale jest i druga strona: nowoczesne auta coraz częściej są wyposażone w kamery i inne urządzenia wchodzące w skład systemów rozpoznawania sytuacji na drodze, które potrafią „zobaczyć” znaki drogowe, pieszych, innych uczestników ruchu i w razie potrzeby ostrzec kierowcę lub nawet zareagować automatycznie.

 

5. Przemysł i produkcja

 

Systemy AI w fabrykach analizują obraz produktów na taśmie — szukają wad, uszkodzeń oraz kontrolują jakość wykonania. Dzięki temu procesy produkcyjne są szybsze i bardziej precyzyjne.

 

6. Bezpieczeństwo i monitoring

 

Systemy monitoringu coraz częściej wykorzystują mechanizmy rozpoznawania obrazu do identyfikacji osób lub nietypowych zdarzeń. To może zwiększać bezpieczeństwo, ale budzi też obawy o prywatność (co stanowi temat na osobny wpis).

 

Czy AI rzeczywiście „widzi”? Cóż, póki co – nie, a przynajmniej nie w rozumieniu ludzkiego widzenia i świadomości tego, na co patrzymy. Dla AI obraz to jedynie zbiór pikseli, lecz rosnący potencjał techniki rozpoznawania obrazu pozwala na coraz dokładniejszą analizę tego zbioru pod kątem jego zawartości.

 

AI umie oddzielić główny temat zdjęcia od tła w programie graficznym, rozpoznać koty w galerii zdjęć smartfona (niekiedy z małymi, dotkliwymi dla kociej dumy pomyłkami), odczytać treść zeskanowanego dokumentu oraz (o zgrozo!) tablice rejestracyjne samochodu. Jasne, czasami się myli i warto wziąć na to poprawkę, lecz ta dodatkowa para oczu może nam pozwolić zajrzeć, gdzie zwykły, ludzki wzrok nie sięga ;)