Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Narodziny sztucznej inteligencji Lip-sync: od Doliny Niesamowitości do hiperrealizmu

byStewart Rogers
5 listopada 2024
in Artificial Intelligence, Conversations, Interviews
Home Artificial Intelligence
Share on FacebookShare on Twitter

Pamiętasz niezręczny dubbing w starych filmach kung-fu? A może drażniąca synchronizacja ruchu warg we wczesnych filmach animowanych? Te dni szybko mijają, a dzięki rozwojowi technologii synchronizacji ruchu warg opartej na sztucznej inteligencji mogą na zawsze być za nami. Od kwietnia 2023 r. liczba rozwiązań i wolumen Wyszukiwanie słów kluczowych „AI Lip-Sync”. wzrosła dramatycznie, nie wiadomo skąd i stała się jednym z kluczowych trendów w branży generatywna sztuczna inteligencja.

Ta najnowocześniejsza dziedzina rewolucjonizuje sposób, w jaki tworzymy i konsumujemy treści wideo, co ma wpływ na wszystko, od tworzenia filmów i animacji po wideokonferencje i gry.

Aby głębiej zagłębić się w tę fascynującą technologię, rozmawiałem z Aleksandrem Rezanowem, inżynierem ds. widzenia komputerowego i uczenia maszynowego, który wcześniej kierował rozwojem synchronizacji ruchu warg w Rask AI, a obecnie pracuje w: Sztuczna inteligencja Higgsfielda w Londynie. Doświadczenie Rezanova pozwala wejrzeć w zawiłe działanie, wyzwania i potencjał transformacyjny sztucznej inteligencji związanej z synchronizacją ruchu warg.

Dekonstrukcja magii: jak działa synchronizacja ruchu AI

„Większość architektur synchronizacji ruchu warg działa na zasadzie inspirowanej artykułem”Wav2Lip: filmy z dokładną synchronizacją ruchu warg w dziczy„” – powiedział mi Rezanov. Systemy te wykorzystują złożoną interakcję sieci neuronowych do analizy sygnału wejściowego audio i generowania odpowiednich ruchów warg. „Dane wejściowe obejmują obraz, w którym chcemy zmienić usta, obraz referencyjny pokazujący wygląd danej osoby oraz sygnał audio” – powiedział Rezanov.

Trzy oddzielne kodery przetwarzają te dane, tworząc skompresowane reprezentacje, które współdziałają w celu wygenerowania realistycznych kształtów ust. „Zadanie synchronizacji ruchu warg polega na «narysowaniu» ust w miejscu, w którym są zamaskowane (lub dostosowaniu istniejących ust), biorąc pod uwagę wygląd osoby i to, co mówiła w danej chwili” – powiedział Rezanov.

Proces ten obejmuje skomplikowane modyfikacje, w tym wykorzystanie wielu obrazów referencyjnych w celu uchwycenia wyglądu osoby, wykorzystanie różnych modeli twarzy i różne metody kodowania dźwięku.

„Zasadniczo badania nad synchronizacją ruchu warg sprawdzają, które bloki w tym systemie można zastąpić, zachowując przy tym niezmienne podstawowe zasady: trzy kodery, interakcja wewnętrzna i dekoder” – powiedział Rezanov.

Opracowanie technologii synchronizacji ruchu warg opartej na sztucznej inteligencji jest trudnym wyzwaniem. Zespół Rezanowa w Rask AI stanął przed wieloma wyzwaniami, szczególnie związanymi z osiągnięciem jakości wizualnej i dokładnej synchronizacji audio-wideo.

„Aby rozwiązać ten problem, zastosowaliśmy kilka strategii” – powiedział Rezanov. „Obejmowało to modyfikację architektury sieci neuronowej, udoskonalenie i ulepszenie procedury uczenia oraz ulepszenie zbioru danych”.

Rask był także pionierem w obsłudze synchronizacji ruchu warg w filmach z wieloma mówcami, co było złożonym zadaniem wymagającym diaryzacji mówców – automatycznej identyfikacji i segmentacji nagrania audio na odrębne segmenty mowy – oraz aktywnego wykrywania mówcy.

Poza rozrywką: coraz szersze zastosowania synchronizacji ruchu AI

Konsekwencje synchronizacji ruchu AI wykraczają daleko poza rozrywkę. „Technologia Lip-Sync ma szeroki zakres zastosowań” – powiedział Rezanov. „Wykorzystując wysokiej jakości synchronizację ruchu warg, możemy wyeliminować lukę audiowizualną podczas oglądania przetłumaczonych treści, dzięki czemu widzowie mogą pozostać w pełni skupieni bez rozpraszania się rozbieżnościami między mową a obrazem”.

Ma to znaczący wpływ na dostępność, ponieważ sprawia, że ​​treści są bardziej atrakcyjne dla widzów, którzy korzystają z napisów lub dubbingu. Co więcej, synchronizacja ruchu AI może usprawnić produkcję treści, zmniejszając potrzebę wykonywania wielu ujęć i obniżając koszty.

„Ta technologia może usprawnić i obniżyć koszty produkcji treści, oszczędzając studia gier znaczne zasoby, a jednocześnie prawdopodobnie poprawiając jakość animacji” – powiedział Rezanov.

W poszukiwaniu perfekcji: przyszłość synchronizacji ruchu AI

Podczas gdy synchronizacja ruchu warg w oparciu o sztuczną inteligencję poczyniła niezwykłe postępy, poszukiwania doskonałej, nierozróżnialnej synchronizacji ruchu warg trwają.

„Największym wyzwaniem związanym z technologią synchronizacji ruchu warg jest to, że ludzie jako gatunek mają wyjątkową umiejętność rozpoznawania twarzy” – powiedział Rezanov. „Ewolucja kształciła nas do tego zadania przez tysiące lat, co wyjaśnia trudności w generowaniu czegokolwiek związanego z twarzami”.

Przedstawia trzy etapy rozwoju synchronizacji ruchu warg: osiągnięcie podstawowej synchronizacji ust z dźwiękiem, tworzenie naturalnych i płynnych ruchów oraz uchwycenie drobnych szczegółów, takich jak pory, włosy i zęby.

„Obecnie największą przeszkodą w synchronizacji ruchu warg jest zwiększenie poziomu szczegółowości” – powiedział Rezanov. „Zęby i brody nadal stanowią szczególne wyzwanie”. Jako posiadacz zarówno zębów, jak i brody, mogę zaświadczyć o rozczarowaniu (a czasem wynikach w stylu Dali wywołujących śmiech w brzuchu), których doświadczyłem podczas testowania niektórych rozwiązań AI do synchronizacji ruchu warg

Pomimo tych wyzwań Rezanov pozostaje optymistą.

„Moim zdaniem stale zbliżamy się do osiągnięcia naprawdę nierozróżnialnej synchronizacji ruchu warg” – powiedział Rezanov. „Ale kto wie, jakie nowe szczegóły zaczniemy zauważać, kiedy już tam dotrzemy?”

Od synchronizacji warg po manipulację twarzą: następna granica

Praca Rezanowa w Higgsfield AI opiera się na jego wiedzy w zakresie synchronizacji ruchu warg i skupia się na szerszych technikach manipulacji twarzą.

„Generowanie wideo to ogromna dziedzina i nie da się wyróżnić tylko jednego aspektu” – powiedział Rezanov. „W firmie zajmuję się przede wszystkim zadaniami związanymi z manipulacją twarzą, co jest ściśle zbieżne z moimi wcześniejszymi doświadczeniami.”

Jego obecne zainteresowania obejmują optymalizację technik zamiany twarzy i zapewnianie spójności postaci w generowanych treściach. Ta praca przesuwa granice manipulacji wideo opartej na sztucznej inteligencji, otwierając nowe możliwości twórczej ekspresji i innowacji technologicznych.

W miarę ewolucji technologii synchronizacji ruchu AI możemy spodziewać się jeszcze bardziej realistycznych i wciągających wrażeń w filmach, animacjach, grach i nie tylko. Niesamowita dolina kurczy się, a przyszłość hiperrealistycznych cyfrowych ludzi jest w zasięgu ręki.

Tags: generatywna sztuczna inteligencjaHiggsfieldaRasksynchronizacja ustSztuczna inteligencja

Related Posts

Qwen Code v0.5.0 firmy Alibaba przekształca terminal w pełny ekosystem deweloperski

Qwen Code v0.5.0 firmy Alibaba przekształca terminal w pełny ekosystem deweloperski

26 grudnia 2025
ChatGPT ewoluuje w pakiet biurowy z nowymi blokami formatowania

ChatGPT ewoluuje w pakiet biurowy z nowymi blokami formatowania

26 grudnia 2025
Google NotebookLM przedstawia "Tryb wykładu" na 30-minutową naukę sztucznej inteligencji

Google NotebookLM przedstawia "Tryb wykładu" na 30-minutową naukę sztucznej inteligencji

26 grudnia 2025
Amazon dodaje Angi, Expedia, Square i Yelp do Alexa+

Amazon dodaje Angi, Expedia, Square i Yelp do Alexa+

26 grudnia 2025
Robotaxis Waymo może otrzymać asystenta samochodowego Gemini AI

Robotaxis Waymo może otrzymać asystenta samochodowego Gemini AI

26 grudnia 2025
Dlaczego NVIDIA pomija procesor Intel 18A w swoich układach AI nowej generacji

Dlaczego NVIDIA pomija procesor Intel 18A w swoich układach AI nowej generacji

26 grudnia 2025

Recent Posts

  • Qwen Code v0.5.0 firmy Alibaba przekształca terminal w pełny ekosystem deweloperski
  • Bethesda planuje 600-godzinną rozgrywkę w Falloucie 5
  • ASUS broni źle ustawionego portu zasilania HyperX w RTX 5090 jako "zamierzony projekt"
  • NVIDIA udostępnia open source CUDA Tile IR w serwisie GitHub
  • Dyrektor generalny MicroStrategy mówi o podstawach Bitcoina "nie mogło być lepiej"

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.