Następna faza sztucznej inteligencji nie będzie definiowana wyłącznie przez lepsze odpowiedzi.
Zostanie zdefiniowany przez systemy, które mogą działać w oparciu o kontekst, postrzegać z głębią i modelować świat, który mają zmienić.
Następne pytanie dotyczące sztucznej inteligencji nie dotyczy tylko tego, co wiedzą modele
Rozmowa AI zaczyna wychodzić poza interfejs chatbota.
W ciągu ostatnich kilku lat najbardziej widoczną formą sztucznej inteligencji była językowa. Ludzie wpisali pytania, modele utworzyli odpowiedzi, a branża mierzyła postęp poprzez rozumowanie, kodowanie, pisanie, podsumowywanie i wyszukiwanie. Ten etap się nie skończył. Inteligencja językowa wciąż staje się coraz bardziej użyteczna, bardziej osadzona i bardziej komercyjna.
Ale to już nie jest cała historia.
Ważniejszym pytaniem jest teraz, co się stanie, gdy systemy sztucznej inteligencji nie tylko wygenerują odpowiedzi, ale zaczną używać narzędzi, zarządzać przepływami pracy, rozumieć przestrzeń i rozumować na temat świata fizycznego. To właśnie w tym kierunku branża zaczyna się zmieniać: od języka do działania, od tekstu do interfejsów, od statycznych odpowiedzi do dynamicznych środowisk.
Ta transformacja stała się wyraźniejsza dopiero od czasu HumanX. Globalne wydatki na sztuczną inteligencję są obecnie generowane przez infrastrukturę i narzędzia agentyczne. Nie chodzi o to, że pojawił się inny model. Dzieje się tak dlatego, że agenci stają się częścią stosu przedsiębiorstwa.
Dlatego rozmowy HumanX w San Francisco wciąż mają znaczenie. Wydarzenie już minęło, ale uchwyciło zmianę, która staje się teraz coraz bardziej widoczna: sztuczna inteligencja odchodzi od systemów, które komunikują się, do systemów, które działają, oraz od modeli przetwarzających język do modeli wymagających zrozumienia świata.
„Sztuczna inteligencja przestała odpowiadać na pytania i teraz może robić różne rzeczy.”
– Jensen Huang
Trzecia fala sztucznej inteligencji
Jensen Huang bezpośrednio ujął tę ewolucję. Argumentował, że sztuczna inteligencja jest znacznie szersza niż duże modele językowe. Język jest jedną z form zakodowanej informacji, ale informacja jest również zakodowana w genach, białkach, substancjach chemicznych, fizyce, narzędziach, oprogramowaniu i środowiskach. Gdziekolwiek istnieje struktura, sztuczna inteligencja może nauczyć się ją reprezentować.
Takie ramy mają znaczenie, ponieważ oddalają sztuczną inteligencję od postrzegania jej jako pojedynczej kategorii. Chatboty są ważne, ale są tylko jednym z przejawów znacznie szerszej technologii. Głębsza zmiana polega na tym, że sztuczna inteligencja staje się sposobem reprezentowania, przewidywania i działania w różnych domenach.
Huang opisał obecną chwilę jako początek trzeciej fali. Pierwsza fala współczesnej sztucznej inteligencji miała charakter generatywny: modele, które mogły tłumaczyć jedną formę informacji na inną. Drugą falą było rozumowanie, w ramach którego modele stały się bardziej ugruntowane i użyteczne. Jego zdaniem trzecia fala ma charakter agentyczny.
„Obecnie dzieje się tak, że sztuczna inteligencja przestała odpowiadać na pytania i stała się zdolna do robienia różnych rzeczy” – powiedział.
Tak zwięźle można opisać nowy środek ciężkości. Podpowiedź nie jest już tylko pytaniem. Coraz częściej jest to prośba o działanie: zbuduj coś, przeanalizuj coś, użyj tych narzędzi, uzyskaj dostęp do tych plików, iteruj, aż praca zostanie ukończona.
Najbardziej przydatne zdanie Huanga mogło być jeszcze prostsze: „AI to oprogramowanie korzystające z oprogramowania”.
Pomysł ten zmienia znaczenie warstwy aplikacji. Przemysł oprogramowania został zbudowany wokół narzędzi używanych przez ludzi. Procesory tekstu, arkusze kalkulacyjne, pakiety projektowe, systemy dla przedsiębiorstw, narzędzia programistyczne, CRM, ERP i platformy analityczne zostały zaprojektowane z myślą o osobach siedzących przed ekranami. Jeśli agenci AI staną się użytkownikami narzędzi, liczba użytkowników oprogramowania dramatycznie wzrośnie.
Rezultatem jest nie tylko większa automatyzacja. Jest to nowe podejście do sposobu korzystania z oprogramowania.
Kodowanie do zarządzania agentami
Rozmowa o OpenAI/Codex w HumanX pokazała, że to samo przejście było widoczne od wewnątrz inżynierii oprogramowania.
Srinivas Narayanan opisał, że narzędzia kodowania przeszły od pomocy do agencji. Inżynierowie nie używają już sztucznej inteligencji tylko do automatycznego uzupełniania funkcji lub wyjaśniania kodu. Są to systemy sterujące, które generują oprogramowanie, przeglądają oprogramowanie i naprawiają błędy. Według niego praca ta polegała na „nie poleganiu przede wszystkim na pisaniu oprogramowania, ale na zarządzaniu agentami”.
Ta linia łączy się bezpośrednio z tym, co dzieje się w obszarze pracy opartej na wiedzy. Kodowanie to pierwsza dziedzina, w której ten wzorzec agentyczny stał się bardzo widoczny, ponieważ oprogramowanie jest niezwykle weryfikowalne. Testy można pisać. Repozytoria są ograniczone. Błędy można powielać. Można sprawdzić wyjścia.
Jednak głębsze twierdzenie jest takie, że kodowanie może być zapowiedzią innych form pracy. Narayanan opisał Kodeks i modele kodowania jako podstawy wielu rodzajów pracy opartej na wiedzy, od przepływów pracy prawnych i finansowych po automatyzację procesów biznesowych.
W tym miejscu agenci stają się czymś więcej niż narzędziami programistycznymi. Stają się ogólnym interfejsem pracy. Jeśli potrafią manipulować plikami, uzyskiwać dostęp do systemów, korzystać z aplikacji i działać w ramach barier ochronnych, te same prymitywy, które czynią je przydatnymi w kodzie, mogą uczynić je przydatnymi w innych przepływach pracy.
Ograniczeniem nie jest wyobraźnia. To kontekst, bezpieczeństwo i dostęp. Czy agent zna systemy firmy- Czy rozumie przepływ pracy- Czy ma odpowiednie uprawnienia- Czy można go monitorować- Czy można mu ufać, gdy agenci rozpoczynają interakcję z innymi agentami-
Pytania te dotyczą tego, dlaczego agentyczna przyszłość to nie tylko wyścig modeli. Jest to problem związany z infrastrukturą, zarządzaniem i interfejsem.
Przejście od słów do światów
Jeśli Jensen i OpenAI pokazali przejście od odpowiadania do działania, Fei-Fei Li pchnęli dyskusję w stronę innej granicy: inteligencji przestrzennej.
Jej argumentem nie było to, że inteligencja językowa się skończyła. W rzeczywistości dała jasno do zrozumienia, że modele językowe pozostaną krytyczne. Ale ludzka inteligencja to nie tylko język. Rozumiemy świat poprzez przestrzeń, ruch, przedmioty, ciała, geometrię, interakcję i czas. Aby maszyny stały się bardziej przydatne w środowiskach fizycznych i wirtualnych, potrzebują jakiejś wersji zrozumienia przestrzeni.
Li opisał brak tej świadomości jako inteligencję w ciemności. W chwili, gdy zwierzęta stały się świadome swoich ciał i związku ze światem, stwierdziła, inteligencja szybko ewoluowała. W przypadku sztucznej inteligencji oznacza to, że widzenie i rozumowanie na temat świata nie jest dodatkiem do inteligencji. Jest to dla niego najważniejsze.
Jej definicja modelu świata była precyzyjna: system, który potrafi zrozumieć przestrzeń, zrozumieć geometrię, interaktywność, fizykę i dynamikę, a ostatecznie wygenerować przestrzeń 3D i 4D, tak jak dzisiejsze komputery generują słowa.
To zupełnie inna ambicja niż stworzenie lepszego chatbota. Wskazuje na systemy, które mogą tworzyć środowiska szkoleniowe dla robotów, pomagać w projektowaniu doświadczeń, wspierać obrazowanie opieki zdrowotnej, zasilać wirtualne światy i modelować kolejny stan środowiska fizycznego.
Marmur firmy World Labs, o którym Li mówił na scenie, jest wczesnym wyrazem tego kierunku: generatywnym modelem prawdziwych, spójnych światów 3D. Nie chodzi tylko o to, że takie światy można generować. Polega to na tym, że mogą stać się środowiskami, w których inne systemy mogą się uczyć, testować, symulować i działać.
Następna faza to działanie i zrozumienie świata
Podsumowując, rozmowy HumanX sugerowały, że kolejna faza sztucznej inteligencji nie będzie definiowana przez jeden interfejs.
Agenci potrzebują narzędzi. Przedsiębiorstwa potrzebują poręczy. Kontekst potrzeb oprogramowania. Robotyka potrzebuje danych przestrzennych. Modele wideo wymagają tymczasowego zrozumienia. Modele światowe wymagają obliczeń, nowych architektur i środowisk szkoleniowych, które nie istnieją jeszcze w skali internetowej.
Wspólnym wątkiem jest to, że sztuczna inteligencja zbliża się do pracy i świata. Nie wystarczy już, że modele będą tworzyć wiarygodny język. Muszą podejmować działania, obsługiwać oprogramowanie, rozumieć środowiska i generować wyniki, które można zweryfikować, wykorzystać i którym można zaufać.
Również dlatego San Francisco pozostaje tak użytecznym obiektywem. HumanX było nie tylko zgromadzeniem dyrektorów i założycieli AI. Była to migawka kolejnego argumentu branży: granica przesuwa się od słów do przepływów pracy i od przepływów pracy do światów.
Nie czyni to języka mniej ważnym. Dzięki temu staje się częścią większego systemu.
Pierwszym doświadczeniem związanym ze sztuczną inteligencją na rynku masowym była rozmowa. Następnym może być delegacja. Następnie może to być symulacja: agenci pracujący w środowiskach, które mogą zrozumieć, modelować i zmieniać.
Takie jest prawdziwe znaczenie chwili uchwyconej przez HumanX. Następna faza sztucznej inteligencji to nie tylko bardziej inteligentne odpowiedzi. To systemy, które potrafią działać w oparciu o kontekst, postrzegać z głębią i ostatecznie wyciągać wnioski na temat świata, który mają zmienić.





