Omnihuman-1 tworzy awatary AI całego ciała z jednego obrazu

Bytedance, spółka macierzysta Tiktok, niedawno wystrzelony Omnihuman-1, wyrafinowana ramy generowania wideo AI, które mogą tworzyć wysokiej jakości filmy z jednego obrazu w połączeniu z klipem audio. Ten model łączy funkcje wideo, audio i prawie idealne synchronizacja warg.

BYTEDANCE uruchamia Omnihuman-1: nowy model generowania wideo AI

Omnihuman-1 jest godne uwagi do tworzenia nie tylko fotorealistycznych filmów, ale także antropomorficznych kreskówek, animowanych obiektów i złożonych pozy. Oprócz tego Bytedance wprowadził inny model AI o nazwie Goku, który osiąga podobną jakość tekstu do filmu z kompaktową architekturą 8 miliardów parametrów, w szczególności ukierunkowaną na rynek reklamowy.

Te rozwój pozycjonuje Bytedance wśród najlepszych graczy na polu AI wraz z chińskimi gigantami technologicznymi, takimi jak Alibaba i Tencent. Jego postępy znacznie zakłócają krajobraz dla treści generowanych przez AI w porównaniu z innymi firmami, takimi jak Kling AI, biorąc pod uwagę obszerną bibliotekę mediów wideo Bytedance, która jest potencjalnie największa po Facebooku.

Filmy demo dla Omnihuman-1 pokazują imponujące wyniki różnych rodzajów wejściowych, z wysokim poziomem szczegółowości i minimalnych usterek. W przeciwieństwie do tradycyjnych technologii DeepFake, które często koncentrują się wyłącznie na animacjach twarzy, Omnihuman-1 obejmuje animacje całego ciała, dokładnie naśladując gesty i wyrażenia. Ponadto model AI dobrze dostosowuje się do różnych właściwości obrazu, tworząc płynny ruch niezależnie od oryginalnego wejścia.

Specyfikacje techniczne Omnihuman-1

Omnihuman-1 wykorzystuje model transformatora dyfuzyjnego do generowania ruchu poprzez przewidywanie wzorców ruchu ramek po ramce, co powoduje realistyczne przejścia i dynamikę ciała. Model, wyszkolony na obszernym zestawie danych wynoszących 18 700 godzin ludzkich filmów wideo, rozumie szeroki wachlarz ruchów i wyrażeń. W szczególności jego strategia szkoleniowa „klimatyzacje”, która integruje wiele sygnałów wejściowych, takich jak odniesienia audio, tekstowe i pozą, zwiększa dokładność prognoz ruchu.

Wypróbowywał Cogvideox, kolejny tekst z open source-to-video AI

Pomimo obiecujących postępów w generowaniu wideo AI, implikacje etyczne są znaczące. Technologia wprowadza takie ryzyko, jak potencjał niewłaściwego użycia w celu wprowadzenia mylących mediów, kradzieży tożsamości i innych złośliwych zastosowań. W związku z tym Bytedance nie wydał jeszcze Omnihuman-1 do użytku publicznego, prawdopodobnie z powodu tych obaw. Jeśli stanie się publicznie dostępny, prawdopodobnie konieczne będą silne zabezpieczenia, w tym cyfrowe znakowanie wodne i autentyczność treści, aby złagodzić potencjalne nadużycia.

Wyróżniony obraz obrazu: Claudio Schwarz/Unsplash

Tags: Ai Omnihuman-1 Wyróżniony

Omnihuman-1 tworzy awatary AI całego ciała z jednego obrazu

Related Posts

Beyond the Grant: Budowanie i finansowanie głębokich przedsięwzięć technologicznych w Europie

Openai właśnie wydał GPT-4.1 i jest absurdalnie dobry na papierze

Meta dostał zielone światło do szkolenia sztucznej inteligencji na danych użytkownika UE

NVIDIA rozpoczyna produkcję układów AI dla USA w Teksasie

UE mówi urzędnikom: Przynieś telefony Burner do Ameryki

Runda 2: Funkcja kontrowersyjnego wycofania Microsoft powróciła

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Omnihuman-1 tworzy awatary AI całego ciała z jednego obrazu

BYTEDANCE uruchamia Omnihuman-1: nowy model generowania wideo AI

Specyfikacje techniczne Omnihuman-1

Related Posts

Beyond the Grant: Budowanie i finansowanie głębokich przedsięwzięć technologicznych w Europie

Openai właśnie wydał GPT-4.1 i jest absurdalnie dobry na papierze

Meta dostał zielone światło do szkolenia sztucznej inteligencji na danych użytkownika UE

NVIDIA rozpoczyna produkcję układów AI dla USA w Teksasie

UE mówi urzędnikom: Przynieś telefony Burner do Ameryki

Runda 2: Funkcja kontrowersyjnego wycofania Microsoft powróciła

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us