Pamiętasz niezręczny dubbing w starych filmach kung-fu? A może drażniąca synchronizacja ruchu warg we wczesnych filmach animowanych? Te dni szybko mijają, a dzięki rozwojowi technologii synchronizacji ruchu warg opartej na sztucznej inteligencji mogą na zawsze być za nami. Od kwietnia 2023 r. liczba rozwiązań i wolumen Wyszukiwanie słów kluczowych „AI Lip-Sync”. wzrosła dramatycznie, nie wiadomo skąd i stała się jednym z kluczowych trendów w branży generatywna sztuczna inteligencja.
Ta najnowocześniejsza dziedzina rewolucjonizuje sposób, w jaki tworzymy i konsumujemy treści wideo, co ma wpływ na wszystko, od tworzenia filmów i animacji po wideokonferencje i gry.
Aby głębiej zagłębić się w tę fascynującą technologię, rozmawiałem z Aleksandrem Rezanowem, inżynierem ds. widzenia komputerowego i uczenia maszynowego, który wcześniej kierował rozwojem synchronizacji ruchu warg w Rask AI, a obecnie pracuje w: Sztuczna inteligencja Higgsfielda w Londynie. Doświadczenie Rezanova pozwala wejrzeć w zawiłe działanie, wyzwania i potencjał transformacyjny sztucznej inteligencji związanej z synchronizacją ruchu warg.
Dekonstrukcja magii: jak działa synchronizacja ruchu AI
„Większość architektur synchronizacji ruchu warg działa na zasadzie inspirowanej artykułem”Wav2Lip: filmy z dokładną synchronizacją ruchu warg w dziczy„” – powiedział mi Rezanov. Systemy te wykorzystują złożoną interakcję sieci neuronowych do analizy sygnału wejściowego audio i generowania odpowiednich ruchów warg. „Dane wejściowe obejmują obraz, w którym chcemy zmienić usta, obraz referencyjny pokazujący wygląd danej osoby oraz sygnał audio” – powiedział Rezanov.
Trzy oddzielne kodery przetwarzają te dane, tworząc skompresowane reprezentacje, które współdziałają w celu wygenerowania realistycznych kształtów ust. „Zadanie synchronizacji ruchu warg polega na «narysowaniu» ust w miejscu, w którym są zamaskowane (lub dostosowaniu istniejących ust), biorąc pod uwagę wygląd osoby i to, co mówiła w danej chwili” – powiedział Rezanov.
Proces ten obejmuje skomplikowane modyfikacje, w tym wykorzystanie wielu obrazów referencyjnych w celu uchwycenia wyglądu osoby, wykorzystanie różnych modeli twarzy i różne metody kodowania dźwięku.
„Zasadniczo badania nad synchronizacją ruchu warg sprawdzają, które bloki w tym systemie można zastąpić, zachowując przy tym niezmienne podstawowe zasady: trzy kodery, interakcja wewnętrzna i dekoder” – powiedział Rezanov.
Opracowanie technologii synchronizacji ruchu warg opartej na sztucznej inteligencji jest trudnym wyzwaniem. Zespół Rezanowa w Rask AI stanął przed wieloma wyzwaniami, szczególnie związanymi z osiągnięciem jakości wizualnej i dokładnej synchronizacji audio-wideo.
„Aby rozwiązać ten problem, zastosowaliśmy kilka strategii” – powiedział Rezanov. „Obejmowało to modyfikację architektury sieci neuronowej, udoskonalenie i ulepszenie procedury uczenia oraz ulepszenie zbioru danych”.
Rask był także pionierem w obsłudze synchronizacji ruchu warg w filmach z wieloma mówcami, co było złożonym zadaniem wymagającym diaryzacji mówców – automatycznej identyfikacji i segmentacji nagrania audio na odrębne segmenty mowy – oraz aktywnego wykrywania mówcy.
Poza rozrywką: coraz szersze zastosowania synchronizacji ruchu AI
Konsekwencje synchronizacji ruchu AI wykraczają daleko poza rozrywkę. „Technologia Lip-Sync ma szeroki zakres zastosowań” – powiedział Rezanov. „Wykorzystując wysokiej jakości synchronizację ruchu warg, możemy wyeliminować lukę audiowizualną podczas oglądania przetłumaczonych treści, dzięki czemu widzowie mogą pozostać w pełni skupieni bez rozpraszania się rozbieżnościami między mową a obrazem”.
Ma to znaczący wpływ na dostępność, ponieważ sprawia, że treści są bardziej atrakcyjne dla widzów, którzy korzystają z napisów lub dubbingu. Co więcej, synchronizacja ruchu AI może usprawnić produkcję treści, zmniejszając potrzebę wykonywania wielu ujęć i obniżając koszty.
„Ta technologia może usprawnić i obniżyć koszty produkcji treści, oszczędzając studia gier znaczne zasoby, a jednocześnie prawdopodobnie poprawiając jakość animacji” – powiedział Rezanov.
W poszukiwaniu perfekcji: przyszłość synchronizacji ruchu AI
Podczas gdy synchronizacja ruchu warg w oparciu o sztuczną inteligencję poczyniła niezwykłe postępy, poszukiwania doskonałej, nierozróżnialnej synchronizacji ruchu warg trwają.
„Największym wyzwaniem związanym z technologią synchronizacji ruchu warg jest to, że ludzie jako gatunek mają wyjątkową umiejętność rozpoznawania twarzy” – powiedział Rezanov. „Ewolucja kształciła nas do tego zadania przez tysiące lat, co wyjaśnia trudności w generowaniu czegokolwiek związanego z twarzami”.
Przedstawia trzy etapy rozwoju synchronizacji ruchu warg: osiągnięcie podstawowej synchronizacji ust z dźwiękiem, tworzenie naturalnych i płynnych ruchów oraz uchwycenie drobnych szczegółów, takich jak pory, włosy i zęby.
„Obecnie największą przeszkodą w synchronizacji ruchu warg jest zwiększenie poziomu szczegółowości” – powiedział Rezanov. „Zęby i brody nadal stanowią szczególne wyzwanie”. Jako posiadacz zarówno zębów, jak i brody, mogę zaświadczyć o rozczarowaniu (a czasem wynikach w stylu Dali wywołujących śmiech w brzuchu), których doświadczyłem podczas testowania niektórych rozwiązań AI do synchronizacji ruchu warg
Pomimo tych wyzwań Rezanov pozostaje optymistą.
„Moim zdaniem stale zbliżamy się do osiągnięcia naprawdę nierozróżnialnej synchronizacji ruchu warg” – powiedział Rezanov. „Ale kto wie, jakie nowe szczegóły zaczniemy zauważać, kiedy już tam dotrzemy?”
Od synchronizacji warg po manipulację twarzą: następna granica
Praca Rezanowa w Higgsfield AI opiera się na jego wiedzy w zakresie synchronizacji ruchu warg i skupia się na szerszych technikach manipulacji twarzą.
„Generowanie wideo to ogromna dziedzina i nie da się wyróżnić tylko jednego aspektu” – powiedział Rezanov. „W firmie zajmuję się przede wszystkim zadaniami związanymi z manipulacją twarzą, co jest ściśle zbieżne z moimi wcześniejszymi doświadczeniami.”
Jego obecne zainteresowania obejmują optymalizację technik zamiany twarzy i zapewnianie spójności postaci w generowanych treściach. Ta praca przesuwa granice manipulacji wideo opartej na sztucznej inteligencji, otwierając nowe możliwości twórczej ekspresji i innowacji technologicznych.
W miarę ewolucji technologii synchronizacji ruchu AI możemy spodziewać się jeszcze bardziej realistycznych i wciągających wrażeń w filmach, animacjach, grach i nie tylko. Niesamowita dolina kurczy się, a przyszłość hiperrealistycznych cyfrowych ludzi jest w zasięgu ręki.