Narodziny sztucznej inteligencji Lip-sync: od Doliny Niesamowitości do hiperrealizmu

Pamiętasz niezręczny dubbing w starych filmach kung-fu? A może drażniąca synchronizacja ruchu warg we wczesnych filmach animowanych? Te dni szybko mijają, a dzięki rozwojowi technologii synchronizacji ruchu warg opartej na sztucznej inteligencji mogą na zawsze być za nami. Od kwietnia 2023 r. liczba rozwiązań i wolumen Wyszukiwanie słów kluczowych „AI Lip-Sync”. wzrosła dramatycznie, nie wiadomo skąd i stała się jednym z kluczowych trendów w branży generatywna sztuczna inteligencja.

Ta najnowocześniejsza dziedzina rewolucjonizuje sposób, w jaki tworzymy i konsumujemy treści wideo, co ma wpływ na wszystko, od tworzenia filmów i animacji po wideokonferencje i gry.

Aby głębiej zagłębić się w tę fascynującą technologię, rozmawiałem z Aleksandrem Rezanowem, inżynierem ds. widzenia komputerowego i uczenia maszynowego, który wcześniej kierował rozwojem synchronizacji ruchu warg w Rask AI, a obecnie pracuje w: Sztuczna inteligencja Higgsfielda w Londynie. Doświadczenie Rezanova pozwala wejrzeć w zawiłe działanie, wyzwania i potencjał transformacyjny sztucznej inteligencji związanej z synchronizacją ruchu warg.

Dekonstrukcja magii: jak działa synchronizacja ruchu AI

„Większość architektur synchronizacji ruchu warg działa na zasadzie inspirowanej artykułem”Wav2Lip: filmy z dokładną synchronizacją ruchu warg w dziczy„” – powiedział mi Rezanov. Systemy te wykorzystują złożoną interakcję sieci neuronowych do analizy sygnału wejściowego audio i generowania odpowiednich ruchów warg. „Dane wejściowe obejmują obraz, w którym chcemy zmienić usta, obraz referencyjny pokazujący wygląd danej osoby oraz sygnał audio” – powiedział Rezanov.

Trzy oddzielne kodery przetwarzają te dane, tworząc skompresowane reprezentacje, które współdziałają w celu wygenerowania realistycznych kształtów ust. „Zadanie synchronizacji ruchu warg polega na «narysowaniu» ust w miejscu, w którym są zamaskowane (lub dostosowaniu istniejących ust), biorąc pod uwagę wygląd osoby i to, co mówiła w danej chwili” – powiedział Rezanov.

Proces ten obejmuje skomplikowane modyfikacje, w tym wykorzystanie wielu obrazów referencyjnych w celu uchwycenia wyglądu osoby, wykorzystanie różnych modeli twarzy i różne metody kodowania dźwięku.

„Zasadniczo badania nad synchronizacją ruchu warg sprawdzają, które bloki w tym systemie można zastąpić, zachowując przy tym niezmienne podstawowe zasady: trzy kodery, interakcja wewnętrzna i dekoder” – powiedział Rezanov.

Opracowanie technologii synchronizacji ruchu warg opartej na sztucznej inteligencji jest trudnym wyzwaniem. Zespół Rezanowa w Rask AI stanął przed wieloma wyzwaniami, szczególnie związanymi z osiągnięciem jakości wizualnej i dokładnej synchronizacji audio-wideo.

„Aby rozwiązać ten problem, zastosowaliśmy kilka strategii” – powiedział Rezanov. „Obejmowało to modyfikację architektury sieci neuronowej, udoskonalenie i ulepszenie procedury uczenia oraz ulepszenie zbioru danych”.

Rask był także pionierem w obsłudze synchronizacji ruchu warg w filmach z wieloma mówcami, co było złożonym zadaniem wymagającym diaryzacji mówców – automatycznej identyfikacji i segmentacji nagrania audio na odrębne segmenty mowy – oraz aktywnego wykrywania mówcy.

Poza rozrywką: coraz szersze zastosowania synchronizacji ruchu AI

Konsekwencje synchronizacji ruchu AI wykraczają daleko poza rozrywkę. „Technologia Lip-Sync ma szeroki zakres zastosowań” – powiedział Rezanov. „Wykorzystując wysokiej jakości synchronizację ruchu warg, możemy wyeliminować lukę audiowizualną podczas oglądania przetłumaczonych treści, dzięki czemu widzowie mogą pozostać w pełni skupieni bez rozpraszania się rozbieżnościami między mową a obrazem”.

Ma to znaczący wpływ na dostępność, ponieważ sprawia, że treści są bardziej atrakcyjne dla widzów, którzy korzystają z napisów lub dubbingu. Co więcej, synchronizacja ruchu AI może usprawnić produkcję treści, zmniejszając potrzebę wykonywania wielu ujęć i obniżając koszty.

„Ta technologia może usprawnić i obniżyć koszty produkcji treści, oszczędzając studia gier znaczne zasoby, a jednocześnie prawdopodobnie poprawiając jakość animacji” – powiedział Rezanov.

W poszukiwaniu perfekcji: przyszłość synchronizacji ruchu AI

Podczas gdy synchronizacja ruchu warg w oparciu o sztuczną inteligencję poczyniła niezwykłe postępy, poszukiwania doskonałej, nierozróżnialnej synchronizacji ruchu warg trwają.

„Największym wyzwaniem związanym z technologią synchronizacji ruchu warg jest to, że ludzie jako gatunek mają wyjątkową umiejętność rozpoznawania twarzy” – powiedział Rezanov. „Ewolucja kształciła nas do tego zadania przez tysiące lat, co wyjaśnia trudności w generowaniu czegokolwiek związanego z twarzami”.

Przedstawia trzy etapy rozwoju synchronizacji ruchu warg: osiągnięcie podstawowej synchronizacji ust z dźwiękiem, tworzenie naturalnych i płynnych ruchów oraz uchwycenie drobnych szczegółów, takich jak pory, włosy i zęby.

„Obecnie największą przeszkodą w synchronizacji ruchu warg jest zwiększenie poziomu szczegółowości” – powiedział Rezanov. „Zęby i brody nadal stanowią szczególne wyzwanie”. Jako posiadacz zarówno zębów, jak i brody, mogę zaświadczyć o rozczarowaniu (a czasem wynikach w stylu Dali wywołujących śmiech w brzuchu), których doświadczyłem podczas testowania niektórych rozwiązań AI do synchronizacji ruchu warg

Pomimo tych wyzwań Rezanov pozostaje optymistą.

„Moim zdaniem stale zbliżamy się do osiągnięcia naprawdę nierozróżnialnej synchronizacji ruchu warg” – powiedział Rezanov. „Ale kto wie, jakie nowe szczegóły zaczniemy zauważać, kiedy już tam dotrzemy?”

Od synchronizacji warg po manipulację twarzą: następna granica

Praca Rezanowa w Higgsfield AI opiera się na jego wiedzy w zakresie synchronizacji ruchu warg i skupia się na szerszych technikach manipulacji twarzą.

„Generowanie wideo to ogromna dziedzina i nie da się wyróżnić tylko jednego aspektu” – powiedział Rezanov. „W firmie zajmuję się przede wszystkim zadaniami związanymi z manipulacją twarzą, co jest ściśle zbieżne z moimi wcześniejszymi doświadczeniami.”

Jego obecne zainteresowania obejmują optymalizację technik zamiany twarzy i zapewnianie spójności postaci w generowanych treściach. Ta praca przesuwa granice manipulacji wideo opartej na sztucznej inteligencji, otwierając nowe możliwości twórczej ekspresji i innowacji technologicznych.

W miarę ewolucji technologii synchronizacji ruchu AI możemy spodziewać się jeszcze bardziej realistycznych i wciągających wrażeń w filmach, animacjach, grach i nie tylko. Niesamowita dolina kurczy się, a przyszłość hiperrealistycznych cyfrowych ludzi jest w zasięgu ręki.

Tags: generatywna sztuczna inteligencja Higgsfielda Rask synchronizacja ust Sztuczna inteligencja

Narodziny sztucznej inteligencji Lip-sync: od Doliny Niesamowitości do hiperrealizmu

Related Posts

Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem

Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność

AI YouTube wie, kiedy masz kupić

Soundcloud CEO przyznaje, że warunki AI nie były wystarczająco jasne, wydaje nowe zastaw

Gotowy na chatgpt, który naprawdę cię zna?

Lightricks zaprezentuje model wideo 13B LTX do generowania wideo AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Narodziny sztucznej inteligencji Lip-sync: od Doliny Niesamowitości do hiperrealizmu

Dekonstrukcja magii: jak działa synchronizacja ruchu AI

Poza rozrywką: coraz szersze zastosowania synchronizacji ruchu AI

W poszukiwaniu perfekcji: przyszłość synchronizacji ruchu AI

Od synchronizacji warg po manipulację twarzą: następna granica

Related Posts

Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem

Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność

AI YouTube wie, kiedy masz kupić

Soundcloud CEO przyznaje, że warunki AI nie były wystarczająco jasne, wydaje nowe zastaw

Gotowy na chatgpt, który naprawdę cię zna?

Lightricks zaprezentuje model wideo 13B LTX do generowania wideo AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us