Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Narodziny sztucznej inteligencji Lip-sync: od Doliny Niesamowitości do hiperrealizmu

byStewart Rogers
5 listopada 2024
in Artificial Intelligence, Conversations, Interviews
Home Artificial Intelligence

Pamiętasz niezręczny dubbing w starych filmach kung-fu? A może drażniąca synchronizacja ruchu warg we wczesnych filmach animowanych? Te dni szybko mijają, a dzięki rozwojowi technologii synchronizacji ruchu warg opartej na sztucznej inteligencji mogą na zawsze być za nami. Od kwietnia 2023 r. liczba rozwiązań i wolumen Wyszukiwanie słów kluczowych „AI Lip-Sync”. wzrosła dramatycznie, nie wiadomo skąd i stała się jednym z kluczowych trendów w branży generatywna sztuczna inteligencja.

Ta najnowocześniejsza dziedzina rewolucjonizuje sposób, w jaki tworzymy i konsumujemy treści wideo, co ma wpływ na wszystko, od tworzenia filmów i animacji po wideokonferencje i gry.

Aby głębiej zagłębić się w tę fascynującą technologię, rozmawiałem z Aleksandrem Rezanowem, inżynierem ds. widzenia komputerowego i uczenia maszynowego, który wcześniej kierował rozwojem synchronizacji ruchu warg w Rask AI, a obecnie pracuje w: Sztuczna inteligencja Higgsfielda w Londynie. Doświadczenie Rezanova pozwala wejrzeć w zawiłe działanie, wyzwania i potencjał transformacyjny sztucznej inteligencji związanej z synchronizacją ruchu warg.

Dekonstrukcja magii: jak działa synchronizacja ruchu AI

„Większość architektur synchronizacji ruchu warg działa na zasadzie inspirowanej artykułem”Wav2Lip: filmy z dokładną synchronizacją ruchu warg w dziczy„” – powiedział mi Rezanov. Systemy te wykorzystują złożoną interakcję sieci neuronowych do analizy sygnału wejściowego audio i generowania odpowiednich ruchów warg. „Dane wejściowe obejmują obraz, w którym chcemy zmienić usta, obraz referencyjny pokazujący wygląd danej osoby oraz sygnał audio” – powiedział Rezanov.

Trzy oddzielne kodery przetwarzają te dane, tworząc skompresowane reprezentacje, które współdziałają w celu wygenerowania realistycznych kształtów ust. „Zadanie synchronizacji ruchu warg polega na «narysowaniu» ust w miejscu, w którym są zamaskowane (lub dostosowaniu istniejących ust), biorąc pod uwagę wygląd osoby i to, co mówiła w danej chwili” – powiedział Rezanov.

Proces ten obejmuje skomplikowane modyfikacje, w tym wykorzystanie wielu obrazów referencyjnych w celu uchwycenia wyglądu osoby, wykorzystanie różnych modeli twarzy i różne metody kodowania dźwięku.

„Zasadniczo badania nad synchronizacją ruchu warg sprawdzają, które bloki w tym systemie można zastąpić, zachowując przy tym niezmienne podstawowe zasady: trzy kodery, interakcja wewnętrzna i dekoder” – powiedział Rezanov.

Opracowanie technologii synchronizacji ruchu warg opartej na sztucznej inteligencji jest trudnym wyzwaniem. Zespół Rezanowa w Rask AI stanął przed wieloma wyzwaniami, szczególnie związanymi z osiągnięciem jakości wizualnej i dokładnej synchronizacji audio-wideo.

„Aby rozwiązać ten problem, zastosowaliśmy kilka strategii” – powiedział Rezanov. „Obejmowało to modyfikację architektury sieci neuronowej, udoskonalenie i ulepszenie procedury uczenia oraz ulepszenie zbioru danych”.

Rask był także pionierem w obsłudze synchronizacji ruchu warg w filmach z wieloma mówcami, co było złożonym zadaniem wymagającym diaryzacji mówców – automatycznej identyfikacji i segmentacji nagrania audio na odrębne segmenty mowy – oraz aktywnego wykrywania mówcy.

Poza rozrywką: coraz szersze zastosowania synchronizacji ruchu AI

Konsekwencje synchronizacji ruchu AI wykraczają daleko poza rozrywkę. „Technologia Lip-Sync ma szeroki zakres zastosowań” – powiedział Rezanov. „Wykorzystując wysokiej jakości synchronizację ruchu warg, możemy wyeliminować lukę audiowizualną podczas oglądania przetłumaczonych treści, dzięki czemu widzowie mogą pozostać w pełni skupieni bez rozpraszania się rozbieżnościami między mową a obrazem”.

Ma to znaczący wpływ na dostępność, ponieważ sprawia, że ​​treści są bardziej atrakcyjne dla widzów, którzy korzystają z napisów lub dubbingu. Co więcej, synchronizacja ruchu AI może usprawnić produkcję treści, zmniejszając potrzebę wykonywania wielu ujęć i obniżając koszty.

„Ta technologia może usprawnić i obniżyć koszty produkcji treści, oszczędzając studia gier znaczne zasoby, a jednocześnie prawdopodobnie poprawiając jakość animacji” – powiedział Rezanov.

W poszukiwaniu perfekcji: przyszłość synchronizacji ruchu AI

Podczas gdy synchronizacja ruchu warg w oparciu o sztuczną inteligencję poczyniła niezwykłe postępy, poszukiwania doskonałej, nierozróżnialnej synchronizacji ruchu warg trwają.

„Największym wyzwaniem związanym z technologią synchronizacji ruchu warg jest to, że ludzie jako gatunek mają wyjątkową umiejętność rozpoznawania twarzy” – powiedział Rezanov. „Ewolucja kształciła nas do tego zadania przez tysiące lat, co wyjaśnia trudności w generowaniu czegokolwiek związanego z twarzami”.

Przedstawia trzy etapy rozwoju synchronizacji ruchu warg: osiągnięcie podstawowej synchronizacji ust z dźwiękiem, tworzenie naturalnych i płynnych ruchów oraz uchwycenie drobnych szczegółów, takich jak pory, włosy i zęby.

„Obecnie największą przeszkodą w synchronizacji ruchu warg jest zwiększenie poziomu szczegółowości” – powiedział Rezanov. „Zęby i brody nadal stanowią szczególne wyzwanie”. Jako posiadacz zarówno zębów, jak i brody, mogę zaświadczyć o rozczarowaniu (a czasem wynikach w stylu Dali wywołujących śmiech w brzuchu), których doświadczyłem podczas testowania niektórych rozwiązań AI do synchronizacji ruchu warg

Pomimo tych wyzwań Rezanov pozostaje optymistą.

„Moim zdaniem stale zbliżamy się do osiągnięcia naprawdę nierozróżnialnej synchronizacji ruchu warg” – powiedział Rezanov. „Ale kto wie, jakie nowe szczegóły zaczniemy zauważać, kiedy już tam dotrzemy?”

Od synchronizacji warg po manipulację twarzą: następna granica

Praca Rezanowa w Higgsfield AI opiera się na jego wiedzy w zakresie synchronizacji ruchu warg i skupia się na szerszych technikach manipulacji twarzą.

„Generowanie wideo to ogromna dziedzina i nie da się wyróżnić tylko jednego aspektu” – powiedział Rezanov. „W firmie zajmuję się przede wszystkim zadaniami związanymi z manipulacją twarzą, co jest ściśle zbieżne z moimi wcześniejszymi doświadczeniami.”

Jego obecne zainteresowania obejmują optymalizację technik zamiany twarzy i zapewnianie spójności postaci w generowanych treściach. Ta praca przesuwa granice manipulacji wideo opartej na sztucznej inteligencji, otwierając nowe możliwości twórczej ekspresji i innowacji technologicznych.

W miarę ewolucji technologii synchronizacji ruchu AI możemy spodziewać się jeszcze bardziej realistycznych i wciągających wrażeń w filmach, animacjach, grach i nie tylko. Niesamowita dolina kurczy się, a przyszłość hiperrealistycznych cyfrowych ludzi jest w zasięgu ręki.

Tags: generatywna sztuczna inteligencjaHiggsfieldaRasksynchronizacja ustSztuczna inteligencja

Related Posts

Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem

Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem

15 maja 2025
Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność

Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność

15 maja 2025
AI YouTube wie, kiedy masz kupić

AI YouTube wie, kiedy masz kupić

15 maja 2025
Soundcloud CEO przyznaje, że warunki AI nie były wystarczająco jasne, wydaje nowe zastaw

Soundcloud CEO przyznaje, że warunki AI nie były wystarczająco jasne, wydaje nowe zastaw

15 maja 2025
Gotowy na chatgpt, który naprawdę cię zna?

Gotowy na chatgpt, który naprawdę cię zna?

14 maja 2025
Lightricks zaprezentuje model wideo 13B LTX do generowania wideo AI

Lightricks zaprezentuje model wideo 13B LTX do generowania wideo AI

14 maja 2025

Recent Posts

  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność
  • Trump zmusza Apple do przemyślenia swojej strategii iPhone’a w Indiach

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.