W styczniu 2025 roku OpenAI wprowadziło Operator – agenta sztucznej inteligencji zdolnego do samodzielnego wykonywania zadań w internecie. Operator potrafi naśladować działania użytkownika w przeglądarce, takie jak wypełnianie formularzy, składanie zamówień czy tworzenie treści, co pozwala na automatyzację wielu codziennych czynności. openai.com
Jak działa Operator?
Operator jest zasilany przez nowy model o nazwie Computer-Using Agent (CUA). Łącząc możliwości widzenia GPT‑4o z zaawansowanym rozumowaniem poprzez uczenie wzmacniające, CUA jest przeszkolony do interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi wyświetlanymi na ekranie. Operator może "zobaczyć" (poprzez zrzuty ekranu) i "współdziałać" (używając wszystkich akcji dozwolonych przez mysz i klawiaturę) z przeglądarką, umożliwiając mu działanie w internecie bez konieczności niestandardowej integracji API.
Jeśli napotka wyzwania lub popełni błędy, Operator może wykorzystać swoje możliwości rozumowania do samokorekty. Kiedy utknie i potrzebuje pomocy, po prostu kieruje kontrolę z powrotem do użytkownika, zapewniając płynne i oparte na współpracy doświadczenie.
Jak korzystać z Operatora?
Aby rozpocząć, wystarczy opisać zadanie, które chcesz wykonać, a Operator poradzi sobie z resztą. Użytkownicy mogą przejąć kontrolę nad zdalną przeglądarką w dowolnym momencie, a Operator jest przeszkolony, aby proaktywnie prosić użytkownika o przejęcie zadań wymagających logowania, szczegółów płatności lub rozwiązywania CAPTCHA.
Użytkownicy mogą spersonalizować swoje przepływy pracy w Operatorze, dodając niestandardowe instrukcje dla wszystkich witryn lub dla określonych, takich jak ustawianie preferencji dla linii lotniczych na Booking.com. Operator pozwala użytkownikom zapisywać monity o szybki dostęp na stronie głównej, idealny do powtarzających się zadań, takich jak uzupełnianie zapasów artykułów spożywczych na Instacart. Podobnie jak w przypadku korzystania z wielu kart w przeglądarce, użytkownicy mogą zlecić Operatorowi jednoczesne wykonywanie wielu zadań poprzez tworzenie nowych rozmów, takich jak zamawianie spersonalizowanego kubka emaliowanego na Etsy podczas rezerwacji kempingu na Hipcamp.
Ekosystem i użytkownicy
Operator przekształca sztuczną inteligencję z narzędzia pasywnego w aktywnego uczestnika ekosystemu cyfrowego. Usprawnia zadania dla użytkowników i przynosi korzyści firmom, które chcą innowacyjnych doświadczeń klientów i pragną wyższych wskaźników konwersji. OpenAI współpracuje z firmami takimi jak DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber i innymi, aby zapewnić, że Operator zaspokoi rzeczywiste potrzeby, przestrzegając ustalonych norm.
Oprócz tych współpracy widzimy duży potencjał poprawy dostępności i wydajności niektórych przepływów pracy, szczególnie w aplikacjach sektora publicznego. Aby dalej badać przypadki użycia, OpenAI współpracuje z organizacjami takimi jak Miasto Stockton, aby ułatwić rejestrację w usługach i programach miejskich.
Bezpieczeństwo i prywatność
Zapewnienie bezpieczeństwa Operatora jest najwyższym priorytetem, z trzema warstwami zabezpieczeń zapobiegających nadużyciom i zapewniających silną kontrolę użytkowników.
Tryb przejęcia: Operator prosi użytkownika o przejęcie przy wprowadzaniu poufnych informacji do przeglądarki, takich jak dane logowania lub informacje o płatności. W trybie przejęcia Operator nie zbiera ani nie wyświetla zrzutów ekranu wprowadzonych przez użytkownika.
Potwierdzenia użytkownika: Przed sfinalizowaniem jakichkolwiek istotnych działań, takich jak złożenie zamówienia lub wysłanie wiadomości e-mail, Operator powinien poprosić o zatwierdzenie.
Ograniczenia zadań: Operator jest przeszkolony do odrzucania niektórych wrażliwych zadań, takich jak transakcje bankowe lub wymagające decyzji o wysokich stawkach, takich jak podejmowanie decyzji w sprawie podania o pracę.
Tryb oglądania: W szczególnie wrażliwych witrynach, takich jak poczta e-mail lub usługi finansowe, Operator wymaga ścisłego nadzoru nad swoimi działaniami, umożliwiając użytkownikom bezpośrednie wykrycie potencjalnych błędów.
OpenAI ułatwiło zarządzanie prywatnością danych w Operatorze. Wyłączenie opcji "Ulepsz model dla wszystkich" w ustawieniach ChatGPT oznacza, że dane nie będą wykorzystywane do dalszego szkolenia modeli OpenAI. Użytkownicy mają pełną kontrolę nad swoimi danymi, a Operator nie przechowuje żadnych informacji poza bieżącą sesją, jeśli użytkownik nie zdecyduje się na ich zapisanie.
Dodatkowo OpenAI zapewniło funkcję przejrzystego zarządzania danymi, umożliwiając użytkownikom:
Usuwanie wszystkich danych przeglądania jednym kliknięciem w ustawieniach Operatora.
Wylogowanie się ze wszystkich witryn bez konieczności ręcznego opuszczania poszczególnych stron.
Usunięcie wcześniejszych rozmów z Operatorem, co pozwala na zachowanie pełnej kontroli nad historią interakcji.
Aby zapewnić bezpieczne użytkowanie, Operator został wyposażony w zaawansowane mechanizmy zabezpieczające przed próbami manipulacji, nadużyciami i atakami cybernetycznymi. Obejmuje to:
Ostrożną nawigację – Operator jest zaprojektowany do wykrywania i ignorowania podejrzanych lub ukrytych poleceń, które mogłyby prowadzić do nieautoryzowanych działań.
Monitorowanie podejrzanego zachowania – Specjalnie zaprojektowany model AI analizuje aktywność Operatora i może zatrzymać jego działanie w przypadku wykrycia potencjalnie szkodliwych aktywności.
Systemy wykrywania zagrożeń – Automatyczne i ręczne przeglądy pomagają identyfikować nowe zagrożenia i szybko wprowadzać aktualizacje bezpieczeństwa.
OpenAI zdaje sobie sprawę, że wraz z rozwojem technologii mogą pojawiać się nowe wyzwania związane z bezpieczeństwem, dlatego stale monitoruje działanie Operatora i dostosowuje jego zabezpieczenia, aby zapewnić użytkownikom jak najwyższy poziom ochrony.
Operator jest obecnie dostępny w fazie wczesnego dostępu i OpenAI planuje jego dalszy rozwój w następujących obszarach:
Integracja Operatora z API – wkrótce model CUA będzie udostępniony dla programistów, którzy będą mogli wykorzystać jego możliwości w budowaniu własnych agentów AI do automatyzacji pracy w przeglądarkach i aplikacjach.
Zwiększenie możliwości – Operator będzie rozwijany w kierunku obsługi bardziej złożonych zadań i dłuższych przepływów pracy, umożliwiając np. zarządzanie dokumentami czy automatyczne raportowanie.
Szerszy dostęp – OpenAI planuje udostępnienie Operatora użytkownikom ChatGPT Plus, Team i Enterprise, a także integrację z ChatGPT, co umożliwi automatyzację zadań na jeszcze większą skalę.
Wprowadzenie Operatora otwiera nowy rozdział w rozwoju agentów AI, którzy nie tylko generują treści, ale także aktywnie współpracują z użytkownikami w internecie, wykonując zadania w ich imieniu. Dzięki temu sztuczna inteligencja staje się jeszcze bardziej funkcjonalna, oszczędzając czas i upraszczając wiele codziennych czynności.
Jeśli chcesz dowiedzieć się więcej o Operatorze i jego możliwościach, odwiedź oficjalną stronę OpenAI: Introducing Operator.
Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba