Do niedawna termin „sztuczna inteligencja” kojarzył się nam z komputerem grającym w go lub w szachy, książkami science fiction, robotami mniej lub bardziej sprawnie naśladującymi ludzi albo „mózgami elektronowymi” w rodzaju HALa 9000 z książki „2001: Odyseja kosmiczna” Arthura C. Clarke’a oraz filmu Staneya Kubricka o tym samym tytule, w którym HAL – wyraźnie wystraszony perspektywą własnej „śmierci”, co świadczyło o zdolności maszyny do przeżywania emocji – wypowiada słowa: „Mój umysł odchodzi. Czuję to”.

Cóż, książkowy HAL może i odszedł (przynajmniej w pierwszej części książkowego cyklu), lecz sztuczna inteligencja ani myśli tego robić, a czasy, gdy jedynie snuliśmy jej futurystyczne wizje minęły szybciej niż wielu z nas przypuszczało. Kilka ostatnich lat rozwoju AI to nie tyle krok naprzód, co efektowny, napędzany postępem technicznym skok, który odmienił nie tylko świat technologii, ale też codzienność zwykłych użytkowników – czyli nas wszystkich. Dziś AI rozpoznaje twarze, wspomaga procesy twórcze, diagnozuje choroby, prowadzi samochody i coraz swobodniej oraz bardziej naturalnie komunikuje się z człowiekiem i w tej komunikacji z pewnością nie powiedziała jeszcze ostatniego słowa.

Zobaczmy więc, co konkretnie wydarzyło się w tej dziedzinie w ostatnich latach i dlaczego to takie ważne.

1. Duże modele językowe (LLM), czyli ChatGPT i spółka

To chyba najbardziej medialny przełom. W 2022 roku laboratorium OpenAI wypuściło ChatGPT, czyli chatbota opartego na modelu GPT–3.5, a potem GPT–4. Duże modele językowe istniały już wcześniej, lecz mało kto się spodziewał, że aż tak dobrze poradzą sobie z rozmowami na różnorodne tematy, odpowiadaniem na pytania, tworzeniem kodu czy nawet krótkich form literackich (o frapującym pojedynku pisarza z maszyną wspominałem w jednym z wcześniejszych wpisów).

Od tego momentu ruszyła lawina: Google (Gemini), Anthropic (Claude), Meta (LLaMA), Mistral, xAI od Elona Muska — wszyscy chcieli mieć swój „supermózg”. Te modele mają miliardy parametrów, czytają internety nie gorzej od Chucka Norrisa, a ich możliwości rosną z miesiąca na miesiąc.

 

Dlaczego to ważne?

Ponieważ nagle AI zaczęła rozumieć kontekst, prowadzić rozmowy, analizować dokumenty czy streszczać książki. To już nie tylko algorytmy, które „coś tam wypluwają”, ale narzędzia realnie wspierające pracę ludzi.

 

2. Generowanie obrazu, dźwięku i wideo

Jeszcze niedawno wygenerowany przez komputer obraz był dość łatwy do rozpoznania: koślawe postaci, wielopalczaste dłonie i klimat jak ze złego snu (złośliwi mogliby mówić coś o syndromie dnia wczorajszego…). A dziś? AI tworzy realistyczne portrety, stylizowane obrazy, głosy, muzykę, a nawet filmy. Modele takie jak Midjourney, DALL·E, Stable Diffusion czy Sora potrafią przekształcić opis tekstowy (czyli tzw. prompt) w grafikę czy animację, która niejednokrotnie może rywalizować jakością z profesjonalnymi pracami.

 

Dlaczego to ważne?

Ponieważ zmienia sposób tworzenia treści. Artyści zyskują nowe narzędzia, marketerzy – ogromne możliwości, a oszuści… no cóż, niestety jedno i drugie.

 

3. Multimodalność – AI, które „widzi”, „czyta” i „słyszy”

Nowe modele, jak GPT-4o czy Gemini 1.5, potrafią przetwarzać różne rodzaje danych: tekst, obraz, dźwięk, a nawet wideo. Możesz pokazać im zdjęcie, a one opiszą, co na nim jest (kwestię rozpoznawania obrazu poruszyłem szerzej w poprzednim wpisie), zidentyfikują budynek, policzą jabłka na stole… Ba, nie tylko jabłka, ale i kalorie: coraz więcej aplikacji do prowadzenia dzienników dietetycznych jest wyposażonych w narzędzia umożliwiające oszacowanie kaloryczności i składu posiłku na podstawie jego zdjęcia.

 

Dlaczego to ważne?

Ponieważ to ogromny krok w stronę bardziej „ludzkiej” inteligencji. Świat człowieka nie kończy się na komunikacji werbalnej – odbieramy go wszystkimi zmysłami. AI zaczyna robić to samo (no, prawie).

 

4. AI w medycynie

Modele takie jak AlphaFold (od DeepMind) coraz skuteczniej rozwiązują problem, z jakim naukowcy zmagali się od dekad: chodzi o przewidywanie struktury białek. To zapowiedź małej rewolucji, która może przyspieszyć tworzenie nowych leków, analizowanie przyczyn chorób i projektowanie terapii genowych. Najnowsza wersja tego modelu, zaprezentowana w 2024 roku, wykracza poza sferę białek i pozwala na przewidywanie jeszcze bardziej skomplikowanych struktur – kompleksów złożonych z protein i cząsteczek DNA lub RNA oraz jonów.

Równocześnie AI wspiera diagnostykę (analiza obrazów medycznych, wykrywanie nowotworów), planowanie operacji czy badania kliniczne.

 

Dlaczego to ważne?

Ponieważ może uratować zdrowie albo życie. Może to jeszcze nie ten etap, w którym pacjent jest kompleksowo skanowany, diagnozowany i leczony, lecz AI już teraz jest przydatnym narzędziem, usprawniającym codzienną pracę naukowców i lekarzy.

 

5. Auta, drony, robotyka…

Systemy takie jak Tesla Autopilot, Waymo czy Cruise uczą się coraz lepiej „widzieć” otoczenie, rozpoznawać znaki, pieszych, rowerzystów. Choć pełna autonomia jeszcze przed nami, to wspomagane przez AI systemy kierowania pojazdami (ADAS) stają się standardem. Sztuczna inteligencja odgrywa też istotną rolę w rozwoju innego rodzaju systemów autonomicznych, między innymi dronów i pojazdów przeznaczonych do transportu materiałów w obiektach przemysłowych.

 

Dlaczego to ważne?

Ponieważ AI – wraz ze swymi obietnicami i zagrożeniami – staje się ważnym elementem naszej codzienności i chcąc nie chcąc obcujemy z nią coraz częściej. Jest tak wszechobecna, że boję się otworzyć lodówkę! (Lodówki też robią się coraz „inteligentniejsze”).

 

Krótkie zestawienie chronologiczne ważnych przełomów w dziedzinie AI

Rok

Wydarzenie / system

Znaczenie

2017

Transformer (Google)

Architektura, która zapoczątkowała przełom w przetwarzaniu języka naturalnego (NLP); podstawa systemów takich jak GPT, BERT i inne.

2018

BERT (Google)

Rewolucyjny model przetwarzania języka naturalnego; początek ery precyzyjniejszego wyszukiwania i NLP.

2020

GPT–3 (OpenAI)

Ogromny model językowy (175 mld parametrów); pierwszy LLM, który naprawdę „robił wrażenie” w interakcji.

2020

AlphaFold (DeepMind)

AI, która przewiduje strukturę białek z niespotykaną wcześniej dokładnością. Przełom w biologii.

2021

DALL·E (OpenAI)

Generowanie obrazów na podstawie opisu tekstowego.

2022

Stable Diffusion (Stability AI)

Opensource’owa alternatywa dla generowania obrazów — ogromna społeczność i tysiące zastosowań.

2022

ChatGPT (OpenAI)

Publiczne udostępnienie interfejsu z GPT–3.5 — boom popularności AI wśród zwykłych użytkowników.

2023

GPT–4 (OpenAI)

Bardziej precyzyjna, kontekstowa wersja znanego LLM — lepsze rozumienie złożonych zapytań.

2023

Midjourney v5

Model generujący obrazy o niemal fotorealistycznej jakości na podstawie opisu tekstowego tekstu.

2023

Claude (Anthropic)

Model językowy opracowany z naciskiem na pojmowanie subtelności językowych i empatię.

2024

Gemini 1.5 (Google DeepMind)

Multimodalna AI obsługująca tekst, obraz, kod i dźwięk, zoptymalizowana pod kątem prędkości odpowiedzi.

2024

Sora (OpenAI)

Model AI do generowania realistycznego wideo z tekstu — przełom w mediach wizualnych.

2025

GPT–4o (OpenAI)

Multimodalny model reagujący w czasie rzeczywistym na tekst, obraz i mowę — naturalniejsza interakcja z AI.

 

Co dalej?

Nie sposób przewidzieć, gdyż jak wynika choćby z powyższej tabeli, tempo zmian jest zawrotne. (Kusiło mnie, by uwzględnić w niej fakt popełnienia przez AI w 2019 roku utworu „Blue Jeans and Bloody Tears”, stylizowanego na piosenkę Eurowizji…). Od publicznej premiery ChatGPT minęło zaledwie kilka lat, a choć sceptycy (nie bezzasadnie) twierdzą, że sztuczna inteligencja to wciąż tylko pewien model, a nie prawdziwy intelekt, niemal z każdym dniem staje się ona bardziej pomocna. Czytelnikowi pozostawiam decyzję, czy to ostatnie słowo należałoby ująć w cudzysłów.