Demis Hassabis, dyrektor generalny Google Deepmind, ujawnił plany ostatecznie połączenia AI firmy Gemini z generatorem wideo Veo, mając na celu nauczenie AI o świecie fizycznym, podczas niedawnego pojawienia się na temat Możliwy Podcast.
Hassabis wyjaśnił, że strategia jest zgodna z ich wizją „uniwersalnego asystenta cyfrowego”, która może pomóc użytkownikom w scenariuszach rzeczywistych. „Zawsze budowaliśmy Gemini, nasz model fundamentów, aby być multimodalnym od samego początku”, stwierdził w podcastie współprowadzonym przez Reida Hoffmana.
Ten ruch odzwierciedla szerszą zmianę branży w kierunku wszechstronnych modeli „omni”. Najnowsze wersje Google Gemini już obsługują generowanie dźwięku, obrazu i tekstu, podczas gdy rywale takie jak OpenAi włączają Tworzenie obrazu w Chatgpt i Amazon zamierza Aby uruchomić model „dowolny”.
Opracowanie tych kompleksowych modeli wymaga rozległych zestawów danych obejmujących wideo, obrazy, audio i tekst. Hassabis zasugerował, że dane wideo napędzające Veo w dużej mierze pochodzą z YouTube, platformy należącej do Google.
Opracował to, przetwarzając obszerną treść na YouTube, Veo dowiaduje się o fizyce rzeczywistej. „[Veo 2] Można dowiedzieć się, jak fizyka świata ” – skomentował Hassabis w sprawie modelu oglądającego„ Wiele filmów z YouTube ”.
Google wcześniej potwierdzono Techcrunch Jego modele „mogą” być przeszkolone w zakresie „niektórych” treści na YouTube, zgodnie z umowami z twórcami. Raporty sugerują, że Google zaktualizował warunki usług w zeszłym roku, potencjalnie rozszerzając dostęp do danych do celów szkoleniowych AI.