Google odsłonięty Generative UI on Monday to technologia, która umożliwia modelom AI generowanie w pełni dostosowanych interaktywnych interfejsów w odpowiedzi na monity użytkownika, obsługiwana przez Gemini 3 Pro i wdrażana w aplikacji Gemini oraz trybie AI wyszukiwarki Google, aby zapewniać dynamiczne doświadczenia wykraczające poza statyczne odpowiedzi tekstowe. Podstawowa funkcjonalność Generative UI polega na tworzeniu różnorodnych wyników, takich jak strony internetowe, narzędzia interaktywne, gry i symulacje w oparciu o dowolne pytania lub instrukcje dostarczone przez użytkowników. Podejście to odchodzi od konwencjonalnych interakcji z chatbotem, które zazwyczaj wyświetlają tylko tekst, na rzecz tworzenia kompletnych, interaktywnych interfejsów użytkownika dostosowanych do konkretnych potrzeb. Wdrażanie rozpoczyna się w aplikacji Gemini, gdzie użytkownicy bezpośrednio spotykają się z wygenerowanymi elementami, i rozciąga się na tryb AI wyszukiwarki Google, poprawiając wyniki wyszukiwania za pomocą interaktywnych komponentów. Artykuł badawczy zatytułowany „Generacyjny interfejs użytkownika: LLM to skuteczne generatory interfejsu użytkownika”, opublikowany wraz z ogłoszeniem, szczegółowo opisuje proces oceny. Osoby oceniające porównały interfejsy generowane przez sztuczną inteligencję z wynikami standardowego modelu dużego języka, wyłączając prędkość generowania jako zmienną. Wyniki wykazały zdecydowaną preferencję dla interfejsów interaktywnych, co wskazuje na ich skuteczność w zakresie zaangażowania i zrozumienia użytkownika. Ten artykuł, którego autorem są badacze Google, w tym Fellow Yaniv Leviathan, zapewnia empiryczne wsparcie dla wykonalności tej technologii. W aplikacji Gemini Google testuje dwie różne implementacje Generatywnego interfejsu użytkownika. Widok dynamiczny wykorzystuje możliwości kodowania Gemini 3 do projektowania i kodowania dostosowanych interfejsów dla każdego pojedynczego monitu, aby dostosować zarówno prezentowaną treść, jak i zawarte w nim funkcje interaktywne, zapewniając na przykład zgodność z intencjami użytkownika. Na przykład system generuje kod na bieżąco w celu tworzenia elementów takich jak przyciski, formularze lub wizualizacje, które reagują na dane wprowadzane przez użytkownika w czasie rzeczywistym publikacja z sekcjami, które można rozszerzać, modyfikować lub z którymi można dalej wchodzić w interakcję. Format ten umożliwia wizualne opowiadanie historii w połączeniu z funkcjonalnością, taką jak elementy przeciągane lub osadzone symulacje, dzięki czemu złożone informacje są bardziej dostępne za pomocą środków graficznych. Google podkreśla zdolność tej technologii do personalizowania wyników w zależności od odbiorców. Jak stwierdzono na blogu badawczym firmy: „Dostosowuje doświadczenie, rozumiejąc, że wyjaśnienie mikrobiomu pięciolatkowi wymaga innej treści i innego zestawu funkcji niż wyjaśnianie go dziecku. dorosły.” To dostosowywanie obejmuje dostosowanie złożoności języka, pomocy wizualnych i poziomów interakcji do wiedzy i wieku odbiorcy, w oparciu o możliwości wnioskowania kontekstowego modelu. W wyszukiwarce Google dostęp do Generatywnego interfejsu użytkownika odbywa się za pośrednictwem trybu AI i jest ograniczony do abonentów Google AI Pro i Ultra w Stanach Zjednoczonych. Użytkownicy aktywują ją, wybierając „Myślenie” z menu rozwijanego modelu, który następnie przetwarza zapytania w celu wygenerowania dostosowanych interaktywnych narzędzi i symulacji. Integracja ta wzbogaca możliwości wyszukiwania, umożliwiając praktyczną eksplorację tematów, takich jak kalkulatory finansowe lub modele naukowe, bezpośrednio w interfejsie wyszukiwania. https://storage.googleapis.com/gweb-research2023-media/media/Dynamic_View_Van_Gogh_1920x1080.mp4
Wideo: Google
Podstawowy system łączy Gemini 3 Pro ze specyficznymi ulepszeniami: dostęp do narzędzi umożliwia generowanie obrazów i integrację z wyszukiwaniem w Internecie, umożliwiając sztucznej inteligencji włączanie danych i wizualizacji w czasie rzeczywistym do interfejsów. Starannie opracowane instrukcje systemowe kierują zachowaniem modelu w celu dostosowania go do oczekiwań użytkownika, podczas gdy etapy przetwarzania końcowego korygują typowe błędy, takie jak niespójność układu lub niedokładności faktyczne. Komponenty te współpracują ze sobą w celu udoskonalenia wyników przed prezentacją. Aby przyspieszyć badania zewnętrzne, Google opracowało zbiór danych PAGEN obejmujący strony internetowe zaprojektowane przez ekspertów z różnych dziedzin. Ta kolekcja służy jako punkt odniesienia do szkolenia i oceniania modeli generowania interfejsu użytkownika. Zbiór danych wkrótce stanie się dostępny dla szerszej społeczności badawczej, ułatwiając badania nad tworzeniem i ulepszaniem interfejsów opartych na sztucznej inteligencji. https://storage.googleapis.com/gweb-research2023-media/media/AIM-CAPYBARA-RNA-1920×1080-Under20MB.mp4
Wideo: Google
Obecne wersje generatywnego interfejsu użytkownika mają pewne ograniczenia. Czas generowania często przekracza jedną minutę, w zależności od złożoności monitu i wymaganego interfejsu. Wyniki czasami zawierają nieścisłości, takie jak nieprawidłowe przedstawienie danych lub usterki funkcjonalne, które Google określa jako aktywne obszary badań. Wysiłki skupiają się na optymalizacji szybkości i niezawodności poprzez iteracyjne aktualizacje modeli i udoskonalone techniki przetwarzania. Odsłonięcie to zbiega się z premierą Gemini 3, najbardziej zaawansowanego jak dotąd modelu sztucznej inteligencji firmy Google. Gemini 3 Pro uzyskał wynik 1501 w tabeli liderów LMArena, przewyższając poprzednie wersje pod względem ogólnych wskaźników wydajności. W teście GPQA Diamond, zaprojektowanym do zadań związanych z rozumowaniem na poziomie doktoranckim, osiągnął on dokładność na poziomie 91,9%. Ponadto, bez zewnętrznych narzędzi, uzyskał 37,5% punktów w ostatnim egzaminie Humanity, kompleksowym teście zaawansowanej wiedzy z różnych dyscyplin.





