Google ma ogłoszony wprowadzenie na rynek dwóch generatywnych modeli AI, Veo i Imagen 3, dostępnych dla firm korzystających z Vertex AI, platformy chmurowej dla narzędzi AI. Veo zostało zaprojektowane do generowania filmów w wysokiej rozdzielczości na podstawie obrazów i podpowiedzi tekstowych, podczas gdy Imagen 3 koncentruje się na tworzeniu realistycznych obrazów na podstawie prostego wprowadzania tekstu.
Google wprowadza na rynek generatywne modele AI Veo i Imagen 3 dla firm
Veo, opracowane przez Google DeepMind, generuje filmy przedstawiające realistycznie wyglądających ludzi i zwierzęta. Użytkownicy mogą tworzyć treści, przesyłając obraz powiązany z podpowiedzią tekstową lub wprowadzając sam tekst. Obecnie Veo będzie dostępne dla wybranych firm poprzez prywatną wersję zapoznawczą. Tworzy klipy wideo 1080p trwające do sześciu sekund, obsługujące 24 lub 30 klatek na sekundę. Według Warrena Barkleya, starszego dyrektora ds. zarządzania produktami w Google Cloud, reakcja przedsiębiorstw na generatywną sztuczną inteligencję jest zdecydowanie pozytywna, a raporty wskazują na 86% wzrost przychodów wśród firm, które zintegrowały te technologie.
Podpowiedź: Timelapse przedstawiający zorzę polarną tańczącą na arktycznym niebie, migoczące gwiazdy, krajobraz pokryty śniegiem
Wideo: Google
Obraz 3również nowo wprowadzony, jest reklamowany jako model generowania obrazów o najwyższej jakości w Google. Może tworzyć fotorealistyczne obrazy i oferuje zaawansowane możliwości edycji, takie jak dodawanie, usuwanie lub rozszerzanie elementów obrazu. Od przyszłego tygodnia wszyscy klienci Vertex AI będą mieli dostęp do Imagen 3. Takie marki jak Cadbury, Oreo i Milka są jednymi z pierwszych, które wykorzystują te modele w swoich strategiach marketingowych.
Obydwa modele zawierają cyfrowe znaki wodne, aby zapobiec dezinformacji i błędnemu przypisaniu, wykorzystując technologię SynthID firmy Google DeepMind. Dodatkowo zawierają wbudowane zabezpieczenia zapobiegające niewłaściwemu użyciu i generowaniu szkodliwych treści. Co ważne, żaden model nie jest szkolony na danych klienta.
Możliwości i ograniczenia Veo
Dostępność Veo w prywatnej wersji zapoznawczej umożliwi firmom takim jak Quora i Mondelez International odkrywanie kreatywnych zastosowań, takich jak generowanie treści wideo dla swoich platform. Jedną z jego wyróżniających się funkcji jest zdolność Veo do tworzenia scen o określonych stylach wizualnych. Może tworzyć dynamiczne treści, w tym zdjęcia krajobrazów i filmy poklatkowe. Model ten nie jest jednak pozbawiony wad. Problemy takie jak znikające obiekty i nierealistyczna fizyka, np. cofające pojazdy, podkreślają jego obecne ograniczenia.
Podpowiedź: Szybki pojazd zestrzelił podmiejską ulicę mieszkalną wysadzaną drzewami. Dzień z czystym, błękitnym niebem. Nasycone kolory, wysoki kontrast
Wideo: Google
Firma Veo została przeszkolona na podstawie różnorodnych materiałów filmowych, aby zwiększyć swoje możliwości. Zapytany o źródła szkoleń Barkley wspomniał, że „może” zawierać treści z YouTube, zgodnie z umowami z twórcami treści. Podkreślił, że Google koncentruje się na korzystaniu z wysokiej jakości, wyselekcjonowanych danych, przestrzegając standardów bezpieczeństwa. Podobnie jak w przypadku innych modeli sztucznej inteligencji, pojawiają się obawy dotyczące praw autorskich i treści zastrzeżonych, zwłaszcza w związku z możliwością tworzenia przez modele niemal identycznych kopii istniejącego dzieła.
Google twierdzi, że wdrożył filtry na poziomie podpowiedzi w celu zarządzania potencjalnie szkodliwymi wynikami. Ponadto firma planuje zabezpieczyć wyniki Veo na Vertex AI, gdy tylko staną się one powszechnie dostępne, zapewniając pewną ochronę firmom korzystającym z tego narzędzia.
Google stopniowo integruje Veo ze swoim pakietem produktów, czego dowodem jest jego wprowadzenie do Google Labs na początku tego roku, po wstępnych zapowiedziach. We wrześniu model został włączony do YouTube Shorts, co umożliwiło twórcom łatwe tworzenie scen tła i krótkich klipów wideo.
Autor wyróżnionego obrazu: Google DeepMind