Google ma wystrzelony nowe narzędzie do generowania obrazów AI o nazwie Whisk, które umożliwia użytkownikom tworzenie efektów wizualnych na podstawie istniejących obrazów. Ogłoszony w aktualizacji w Google Labs, Whisk wykorzystuje model języka Gemini do rozumienia obrazu i generator obrazu Imagen 3. Obecnie jest dostępny tylko w USA
Google uruchamia Whisk: narzędzie AI do kreatywnego generowania obrazów
Whisk działa na zasadzie uchwycenia „esencji” dostarczonego obrazu, a nie bezpośredniego jego odtwarzania. Użytkownicy wprowadzają obraz wraz ze wstępnie zdefiniowanymi stylami, takimi jak naklejka, emaliowana przypinka i plusz, aby otrzymać twórczo zmieniony wynik. Narzędzie to skupia się na burzy mózgów i szybkich wizualizacjach, a nie na ostatecznej treści produkcyjnej. Uproszczony interfejs pomaga użytkownikom w generowaniu wstępnych koncepcji.

Zaawansowany tryb edytora, dostępny poprzez opcję „Zacznij od zera”, zapewnia użytkownikom możliwość określenia szczegółów w kategoriach tematycznych, scen i stylów. Użytkownicy mogą również dodać tekst w celu udoskonalenia. Jednak, jak zaobserwowano podczas testów, niektóre wyniki nie były ściśle zgodne z oczekiwaniami użytkowników. Google ostrzega, że Whisk będzie różnić atrybuty obrazów wyjściowych, takie jak wzrost, waga i fryzura, od oryginalnych danych wejściowych.

Pod maską funkcjonalność Whiska opiera się na zdolności modelu Gemini do generowania szczegółowych podpisów na temat przesłanego obrazu. Napisy te są następnie wykorzystywane przez generator Imagen 3 do tworzenia nowych elementów wizualnych. Proces ten podkreśla cel Whiska, jakim jest promowanie wolności twórczej, umożliwiając użytkownikom remiksowanie elementów w różnych formatach wizualnych.
Równolegle z premierą Whiska Google wprowadziło Veo 2, nową wersję swojego modelu generowania wideo. Ta najnowsza aktualizacja demonstruje ulepszone możliwości generowania wideo, tworząc wysokiej jakości treści z zaawansowanym zrozumieniem fizyki w świecie rzeczywistym i ruchów człowieka. Podczas testów Veo 2 wykazało zmniejszoną częstotliwość „halucynacji”, które zazwyczaj obejmują błędne lub nieoczekiwane szczegóły w generowanej treści.

Użytkownicy mogą żądać określonych stylów lub atrybutów filmowania w swoich podpowiedziach wideo, zwiększając poziom szczegółowości generowanych wyników, w tym żądając filmów w rozdzielczości 4K. Filmy wyprodukowane przez Veo 2 ilustrują osiągalną obecnie wysoką jakość kinową, skutecznie zaspokajając różne potrzeby użytkowników.
Model Imagen 3 również został ulepszony i może generować znacznie jaśniejsze i lepiej skomponowane obrazy w różnorodnych stylach. Ten ulepszony model dokładniej podąża za instrukcjami użytkownika i generuje skomplikowane tekstury. Dzięki testom użytkowników z konkurencyjnymi modelami generowania obrazu, Imagen 3 osiągnął najnowocześniejsze wyniki.

W ramach zaangażowania Google w odpowiedzialny rozwój sztucznej inteligencji produkty Whisk i najnowsze modele zawierają niewidoczny znak wodny SynthID, który pomaga zapobiegać dezinformacji. Skupienie się na bezpieczeństwie towarzyszy starannemu procesowi wdrażania. Użytkownicy mogą uzyskać dostęp do tych nowych możliwości za pośrednictwem Laboratorium Google, gdzie mogą zarejestrować się w celu otrzymywania aktualizacji i ulepszeń funkcji.
Kredyty obrazkowe: Google