Wojciech Zaremba (ur. 30 listopada 1988) to polski informatyk, znany jako współzałożyciel OpenAI – amerykańskiego laboratorium badawczego sztucznej inteligencji
Urodził się w Kluczborku w Polsce i już w młodości odnosił sukcesy w nauce – zdobył m.in. srebrny medal na Międzynarodowej Olimpiadzie Matematycznej w 2007 roku, Studiował matematykę i informatykę na Uniwersytecie Warszawskim oraz prestiżowej École Polytechnique we Francji, uzyskując w 2013 roku dwa tytuły magistra. Następnie wyjechał do USA, gdzie podjął studia doktoranckie z głębokiego uczenia (deep learning) na Nowojorskim Uniwersytecie (NYU) pod opieką wybitnych specjalistów, takich jak Yann LeCun i Rob Fergus
Doktorat obronił już w 2016 roku, skracając typowy czas studiów o połowę. Jeszcze w trakcie studiów Zaremba zdobywał doświadczenie w czołowych firmach technologicznych. Odbył staże m.in. w NVIDIA, Google Brain oraz Facebook AI Research. Podczas pobytu w Google współtworzył przełomową pracę naukową na temat podatności sieci neuronowych na przykłady wprowadzające w błąd (adversarial examples). Badania te zapoczątkowały nowy kierunek w bezpieczeństwie AI, pokazując, że niewielkie, celowe zakłócenia danych wejściowych mogą skłonić sieć do błędnych predykcji. Zaremba już jako doktorant dał się poznać jako wybitny naukowiec – w 2015 roku otrzymał prestiżowe stypendium Google PhD Fellowship, a magazyn Forbes Polska umieścił go w 2017 roku na liście „30 under 30” najbardziej utalentowanych młodych Polaków. W 2015 roku, mając zaledwie 25 lat, Wojciech Zaremba znalazł się w gronie założycieli OpenAI. Był jedną z kluczowych postaci obok znanych inwestorów, takich jak Elon Musk czy Sam Altman, którzy wspólnie zainwestowali w projekt miliard dolarów. W początkowych latach działalności OpenAI Zaremba kierował zespołem badawczym zajmującym się robotyką, dążąc do stworzenia robotów o ogólnym zastosowaniu. Jego zespół zasłynął z opracowania robotycznego ramienia potrafiącego ułożyć Kostkę Rubika jedną ręką. Po rozwiązaniu działu robotyki w 2020 roku Zaremba objął prowadzenie zespołów pracujących nad modelami językowymi GPT oraz systemami do generowania kodu, takimi jak GitHub Copilot i model Codex. Do dziś pełni istotną rolę w OpenAI, koncentrując się na rozwoju zaawansowanych modeli sztucznej inteligencji.
Robotyczna dłoń Dactyl stworzona przez OpenAI układa Kostkę Rubika – projekt, którym kierował Wojciech Zaremba
Ma na koncie znaczące osiągnięcia naukowe, które przyczyniły się do postępu sztucznej inteligencji. Jednym z jego pierwszych głośnych dokonań była współautorstwo pracy “Intriguing Properties of Neural Networks” (2013), opisującej zaskakujące podatności sieci neuronowych na ataki adversarialne. Badanie to pokazało, że można wygenerować specjalnie zakłócone dane wejściowe, które dla człowieka wyglądają niegroźnie, a jednak potrafią zmylić nawet zaawansowany model AI. Wyniki te zapoczątkowały intensywne prace nad bezpieczeństwem modeli uczących się i dały początek całemu obszarowi badawczemu związanemu z odpornością sieci na ataki.
Kolejnym istotnym polem działania Zaremby była robotyka. Jako lider zespołu robotycznego w OpenAI, Zaremba dążył do wykorzystania uczenia maszynowego w sterowaniu fizycznymi robotami. Najgłośniejszym sukcesem było stworzenie systemu Dactyl – robotycznej dłoni, która nauczyła się układać Kostkę Rubika bez pomocy człowieka. Rozwiązanie to opierało się na dwóch sieciach neuronowych szkolonych metodą uczenia przez wzmacnianie (reinforcement learning) w symulacji, z zastosowaniem techniki automatycznej randomizacji domeny (ADR). W październiku 2019 roku OpenAI zaprezentowało film, na którym robot radzi sobie z Kostką Rubika jedną ręką, nawet gdy jest szturchany lub gdy zmieniają się warunki otoczenia. Było to przełomowe osiągnięcie, pokazujące że sztuczna inteligencja może rozwiązywać złożone problemy w świecie fizycznym, wymagające zręczności dorównującej ludzkiej.
Po sukcesach w robotyce Zaremba skierował swoją uwagę na modele generatywne i zastosowanie AI w programowaniu. Nadzorował prace nad systemem OpenAI Codex, czyli modelem potrafiącym generować kod komputerowy na podstawie poleceń w języku naturalnym. Codex stał się fundamentem usługi GitHub Copilot, asystenta podpowiadającego programistom fragmenty kodu. Wkład Zaremby w rozwój Codex i Copilota przyczynił się do popularyzacji wykorzystania AI w codziennej pracy programistów, usprawniając proces pisania oprogramowania za pomocą tzw. inteligentnego uzupełniania kodu. Tym samym Zaremba miał udział w poszerzeniu zastosowań sztucznej inteligencji z obszaru języka naturalnego na dziedzinę inżynierii oprogramowania.
Jednym z najważniejszych osiągnięć OpenAI, przy których pracuje obecnie Wojciech Zaremba, jest rodzina modeli GPT (Generative Pre-trained Transformer). To kolejne generacje dużych modeli językowych, które zrewolucjonizowały przetwarzanie języka naturalnego. Poniżej przedstawiamy przegląd rozwoju modeli GPT – od pierwszej wersji z 2018 roku po najnowsze dokonania – wraz z ich możliwościami i zastosowaniami.
Pierwszy model z serii, GPT-1, został opracowany przez OpenAI w 2018 roku jako dowód na skuteczność podejścia unsupervised pre-training – czyli wstępnego trenowania modelu na ogromnych zbiorach tekstu bez nadzoru, a następnie dostrajania go do konkretnych zadań językowych. GPT-1 miał 117 milionów parametrów i był zbudowany w oparciu o architekturę transformera (dokładniej: część dekoderową transformera). Trenowano go na dużym korpusie nieoznaczonych danych tekstowych, co pozwoliło mu nauczyć się ogólnego modelu języka. Już ta pierwsza wersja, mimo relatywnie niewielkiej skali, osiągnęła lepsze wyniki od ówczesnych modeli nadzorowanych na kilku zadaniach NLP, dowodząc skuteczności metody pretrenowania generatywnego.
Kolejnym krokiem był GPT-2, zaprezentowany w lutym 2019 roku jako znacznie większy i potężniejszy model będący bezpośrednią skalacją GPT-1. Liczba parametrów wzrosła ponad dziesięciokrotnie – do 1,5 miliarda
– a model uczono na zbiorze ok. 8 milionów stron internetowych (tzw. WebText), czyli kilkudziesięciu gigabajtach różnorodnych tekstów z sieci. GPT-2 potrafił generować zaskakująco spójne i płynne teksty na zadany temat. Dziennikarze opisywali, że po podaniu modelowi nagłówka artykułu lub pierwszego zdania opowiadania, był on w stanie dopisać resztę w przekonującym stylu. Model umiał też tłumaczyć teksty, podsumowywać długie artykuły czy odpowiadać na pytania, mimo że nie był specjalnie trenowany do tych zadań. Ta imponująca wszechstronność wynikała z dużej skali i różnorodności danych treningowych. Co ciekawe, obawiając się potencjalnych nadużyć (np. generowania wiarygodnie brzmiących fake news), OpenAI początkowo wstrzymało pełną publikację GPT-2, udostępniając model stopniowo. Pełną wersję (1,5 mld parametrów) upubliczniono dopiero pod koniec 2019 roku, gdy nie stwierdzono poważnych przypadków nadużyć.
Kolejna odsłona, GPT-3, ukazała się w 2020 roku i stanowiła ogromny skok w rozmiarze i możliwościach modelu. Zespół OpenAI zwiększył liczbę parametrów do 175 miliardów, co uczyniło GPT-3 największym nienadzorowanym modelen językowym swoich czasów. Tak wielka pojemność sieci pozwoliła na zadziwiające rezultaty – GPT-3 potrafił wykonywać zadania, do których nie był trenowany, korzystając jedynie z tzw. uczenia na podstawie kontekstu (few-shot learning). Oznacza to, że wystarczyło przedstawić mu w podpowiedzi kilka przykładów lub sformułować polecenie wprost, a model umiał wygenerować odpowiedź rozwiązującą zadanie. GPT-3 wykazywał zdolności nie tylko w generowaniu poprawnych gramatycznie tekstów czy udzielaniu długich, spójnych odpowiedzi, ale też w pisaniu kodu w różnych językach programowania czy rozwiązywaniu prostych problemów matematycznych. Zastosowania GPT-3 okazały się bardzo szerokie – od tworzenia podsumowań i artykułów, przez chatboty prowadzące konwersacje, aż po narzędzia wspomagające programistów (to na bazie GPT-3 powstał wspomniany Codex do generowania kodu).
Przełomowym momentem w popularyzacji technologii GPT było uruchomienie na jej bazie ChatGPT pod koniec 2022 roku. ChatGPT to chatbot wykorzystujący model z rodziny GPT-3.5, który został dodatkowo dostrojony pod kątem prowadzenia naturalnej konwersacji z użytkownikiem (m.in. za pomocą techniki RLHF – uczenia z oceną ludzkiego feedbacku). Umożliwiło to interaktywny dialog z AI, w którym model zadaje dodatkowe pytania, przyznaje się do błędów czy odmawia nieodpowiednich próśb. ChatGPT potrafi odpowiadać na pytania z rozmaitych dziedzin, pisać eseje, generować pomysły, a nawet symulować dyskusje. Jego możliwości szybko zdobyły ogromną popularność – w ciągu zaledwie dwóch miesięcy od premiery liczba użytkowników ChatGPT przekroczyła 100 milionów, co uczyniło go najszybciej rosnącą aplikacją w historii. Sukces ten pokazał potencjał modeli językowych w codziennym użytku i zapoczątkował prawdziwy boom na AI, motywując inne firmy (Google, Meta, Anthropic i in.) do przyspieszenia prac nad własnymi modelami i chatbotami.
W marcu 2023 roku OpenAI zaprezentowało GPT-4, najnowszą generację modelu, która wyniosła możliwości AI na jeszcze wyższy poziom. GPT-4 jest modelem multimodalnym, co oznacza, że potrafi przyjmować nie tylko tekst, ale i obraz jako wejście, a generować odpowiedzi w formie tekstu. Dzięki dalszemu zwiększeniu skali i ulepszeniom architektury, GPT-4 wykazuje bardziej “ludzkie” umiejętności rozumowania i rozwiązywania problemów. W momencie premiery ogłoszono, że model ten zdał symulowany egzamin adwokacki z wynikiem mieszczącym się w top 10% najlepszych rezultatów (dla porównania poprzednia wersja GPT-3.5 plasowała się na poziomie najsłabszych 10%). GPT-4 lepiej radzi sobie z złożonymi poleceniami, generuje bardziej poprawne i kontekstowo adekwatne odpowiedzi, a także jest mniej podatny na udzielanie niepożądanych treści dzięki wbudowanym mechanizmom bezpieczeństwa. Model ten został udostępniony użytkownikom m.in. poprzez płatną subskrypcję ChatGPT Plus, znajdując również zastosowanie w licznych aplikacjach biznesowych i narzędziach deweloperskich. Choć szczegółowa architektura i rozmiar GPT-4 nie zostały w pełni ujawnione, powszechnie uważa się, że jest to najbardziej zaawansowany model językowy dostępny obecnie publicznie. Jego pojawienie się dowodzi, że trend skalowania modeli (więcej danych, parametrów i mocy obliczeniowej) nadal przynosi wymierne korzyści w jakości działania AI, zbliżając modele do poziomu rozumowania człowieka.
Dynamiczny rozwój modeli takich jak GPT wskazuje na szybkie zbliżanie się do ery sztucznej inteligencji ogólnej (AGI) – systemów dorównujących ludziom pod względem umiejętności uczenia się i rozwiązywania problemów w różnych dziedzinach. Wojciech Zaremba, podobnie jak inni założyciele OpenAI, podkreśla misję, by AGI powstała w sposób bezpieczny i służyła całej ludzkości. W wywiadach zaznacza, że celem OpenAI jest rozwijanie sztucznej inteligencji z korzyścią, a nie szkodą dla człowieka, tak aby stała się ona pożytecznym narzędziem wspierającym nas w rozmaitych zadaniach. Jego zdaniem AI może okazać się „najważniejszym wynalazkiem naszych czasów”, zdolnym zrewolucjonizować przemysł i społeczeństwo w stopniu porównywalnym do elektryczności. Tak jak trudno było kiedyś przewidzieć wszystkie zastosowania prądu (niegdyś sądzono, że elektryczność posłuży co najwyżej do oświetlania pomieszczeń, a doprowadziła do powstania radia, komputerów i całej nowoczesnej technologii), tak dziś trudno w pełni pojąć przyszłe zastosowania AI. Możemy jednak oczekiwać, że sztuczna inteligencja przeniknie do niemal każdej dziedziny życia, od medycyny i edukacji, przez transport i produkcję, po sztukę i rozrywkę.
Główne kierunki rozwoju AI, jakie już się zarysowują, to m.in. dalsza multimodalność (łączenie przetwarzania języka, obrazów, dźwięku i innych typów danych w jednym modelu), poprawa efektywności i interpretowalności modeli (tak aby były one nie tylko potężne, ale i zrozumiałe oraz tańsze w użyciu), a także prace nad aspektami etycznymi i bezpieczeństwem. Wraz ze wzrostem możliwości AI rośnie świadomość potencjalnych zagrożeń – od dezinformacji generowanej maszynowo, przez wpływ na rynek pracy (automatyzacja wielu zawodów), po ryzyko stworzenia systemów, nad którymi trudno zapanować. Dlatego zespoły takie jak OpenAI duży nacisk kładą na rozwój odpowiedzialny (AI alignment), czyli dopasowanie celów inteligencji maszynowej do ludzkich wartości i norm społecznych. Sam Zaremba podkreśla, że AI musi pozostać pod kontrolą człowieka i działać dla jego dobra – tylko wtedy jej rozwój przyniesie pozytywny, globalny wpływ.
W nadchodzących latach możemy spodziewać się dalszego udoskonalania modeli pokroju GPT oraz pojawienia się nowych architektur inspirowanych ludzkim umysłem. Być może doczekamy się AGI zdolnej do kreatywnego rozwiązywania problemów i uczenia się zupełnie nowych umiejętności z minimalną pomocą człowieka. Taka inteligencja mogłaby przyspieszyć postęp naukowy, wspomóc wynajdywanie leków, opracowywanie nowych technologii czy radzenie sobie z globalnymi wyzwaniami (np. zmianami klimatu). Równocześnie ważne będzie wypracowanie regulacji i norm dla AI, aby zapewnić, że jej wpływ będzie pozytywny dla społeczeństwa. Przyszłość sztucznej inteligencji maluje się więc ekscytująco – stoi przed nami szansa na stworzenie narzędzia, które, jak mówi Wojciech Zaremba, „będzie obecne wszędzie” i zmieni niemal każdy aspekt życia na Ziemi. Dzięki wysiłkom takich pionierów jak Zaremba, jesteśmy coraz bliżej urzeczywistnienia tej wizji w sposób bezpieczny i sprzyjający ludzkości.
Źródła: Wojciech Zaremba , OpenAI.com, materiały prasowe OpenAI.