Bytedance, spółka macierzysta Tiktok, niedawno wystrzelony Omnihuman-1, wyrafinowana ramy generowania wideo AI, które mogą tworzyć wysokiej jakości filmy z jednego obrazu w połączeniu z klipem audio. Ten model łączy funkcje wideo, audio i prawie idealne synchronizacja warg.
BYTEDANCE uruchamia Omnihuman-1: nowy model generowania wideo AI
Omnihuman-1 jest godne uwagi do tworzenia nie tylko fotorealistycznych filmów, ale także antropomorficznych kreskówek, animowanych obiektów i złożonych pozy. Oprócz tego Bytedance wprowadził inny model AI o nazwie Goku, który osiąga podobną jakość tekstu do filmu z kompaktową architekturą 8 miliardów parametrów, w szczególności ukierunkowaną na rynek reklamowy.
Te rozwój pozycjonuje Bytedance wśród najlepszych graczy na polu AI wraz z chińskimi gigantami technologicznymi, takimi jak Alibaba i Tencent. Jego postępy znacznie zakłócają krajobraz dla treści generowanych przez AI w porównaniu z innymi firmami, takimi jak Kling AI, biorąc pod uwagę obszerną bibliotekę mediów wideo Bytedance, która jest potencjalnie największa po Facebooku.
Filmy demo dla Omnihuman-1 pokazują imponujące wyniki różnych rodzajów wejściowych, z wysokim poziomem szczegółowości i minimalnych usterek. W przeciwieństwie do tradycyjnych technologii DeepFake, które często koncentrują się wyłącznie na animacjach twarzy, Omnihuman-1 obejmuje animacje całego ciała, dokładnie naśladując gesty i wyrażenia. Ponadto model AI dobrze dostosowuje się do różnych właściwości obrazu, tworząc płynny ruch niezależnie od oryginalnego wejścia.
Specyfikacje techniczne Omnihuman-1
Omnihuman-1 wykorzystuje model transformatora dyfuzyjnego do generowania ruchu poprzez przewidywanie wzorców ruchu ramek po ramce, co powoduje realistyczne przejścia i dynamikę ciała. Model, wyszkolony na obszernym zestawie danych wynoszących 18 700 godzin ludzkich filmów wideo, rozumie szeroki wachlarz ruchów i wyrażeń. W szczególności jego strategia szkoleniowa „klimatyzacje”, która integruje wiele sygnałów wejściowych, takich jak odniesienia audio, tekstowe i pozą, zwiększa dokładność prognoz ruchu.
Wypróbowywał Cogvideox, kolejny tekst z open source-to-video AI
Pomimo obiecujących postępów w generowaniu wideo AI, implikacje etyczne są znaczące. Technologia wprowadza takie ryzyko, jak potencjał niewłaściwego użycia w celu wprowadzenia mylących mediów, kradzieży tożsamości i innych złośliwych zastosowań. W związku z tym Bytedance nie wydał jeszcze Omnihuman-1 do użytku publicznego, prawdopodobnie z powodu tych obaw. Jeśli stanie się publicznie dostępny, prawdopodobnie konieczne będą silne zabezpieczenia, w tym cyfrowe znakowanie wodne i autentyczność treści, aby złagodzić potencjalne nadużycia.
Wyróżniony obraz obrazu: Claudio Schwarz/Unsplash