Awatary AI, czyli „gadające głowy”, wyznaczyły nowy krok w sposobie podejścia do zaangażowania cyfrowego i jego pojmowania. Nie tak dawno temu zamiana pojedynczego zdjęcia i klipu audio w plik realistyczne, mówiące podobieństwo wydawało się niemożliwe — najlepsze, co mogliśmy uzyskać, to efekt „niesamowitej doliny”, z pewnością nienadający się do użytku zewnętrznego.
Teraz sytuacja jest znacznie inna. Najważniejszy dla narzędzi takich jak Synthesia jest proces tworzenia awatarów AI, który rozpoczyna się od stworzenia przez sztuczną inteligencję „tożsamości cyfrowej” na podstawie obrazu, a następnie animowania jej w celu zsynchronizowania ruchów twarzy z dźwiękiem — tak aby awatar „mówił” do użytkownika podczas prezentacji, odtwarzania, lub wydarzenie. Postęp ten zawdzięczamy najnowocześniejszym metodom, m.in Sieci GANznane z szybkich, wysokiej jakości efektów wizualnych i modeli dyfuzyjnych, cenione za bogatą szczegółowość, choć wolniejsze. Synthesia, D-ID i Hume AI należą do firm rozwijających te narzędzia i przodujących w dostosowywaniu tej technologii do bieżących wymagań.
Jednak prawdziwy realizm jest wciąż poza zasięgiem. Sieci neuronowe przetwarzają szczegóły wizualne inaczej niż ludzie, często pomijając subtelne wskazówki, takie jak precyzyjne ustawienie zębów i zarostu, które kształtują naturalny sposób postrzegania twarzy przez ludzi. Więcej o tym później.
W tym artykule omówiono wewnętrzne działanie tej technologii i wyzwania, przed którymi stają programiści, próbując nadać awatarom AI wygląd naszych znajomych twarzy. Jak realistyczne mogą się stać?
Jak działa proces generowania awatarów AI
Tworzenie awatara AI rozpoczyna się od przesłania przez użytkownika zdjęcia lub filmu. Dane wejściowe są przetwarzane przez „ekstraktor tożsamości” – sieć neuronową przeszkoloną do identyfikowania i kodowania wyglądu fizycznego osoby. Model ten wyodrębnia kluczowe cechy twarzy i przekształca je w „tożsamość cyfrową”, którą można wykorzystać do realistycznej animacji awatara. Na podstawie tej reprezentacji programiści mogą kontrolować ruchy za pomocą sygnału „sterownika”, zwykle audio lub dodatkowego wideo, który określa, w jaki sposób awatar powinien się poruszać i mówić.
Sygnał sterownika jest niezbędny w procesie animacji. Określa zarówno synchronizację warg z dźwiękiem, jak i szerszą mimikę twarzy. Na przykład w przypadku mówiącego awatara sygnały dźwiękowe wpływają na kształt i ruch ust, dopasowując je do mowy. Czasami kluczowe punkty twarzy (np. kąciki oczu i ust) służą do precyzyjnego kierowania ruchem, podczas gdy w innych przypadkach cała pozycja awatara jest modyfikowana w celu dopasowania do sygnału kierowcy. Aby zapewnić naturalny wyraz ekspresji, sieć neuronowa może wykorzystywać techniki takie jak „wypaczanie”, które płynnie przekształca cechy awatara w oparciu o powyższe sygnały wejściowe.
Na ostatnim etapie proces dekodowania przekształca tę zmodyfikowaną tożsamość cyfrową z powrotem w formę wizualną, generując pojedyncze klatki i łącząc je w jednolity film. Sieci neuronowe zazwyczaj nie działają w sposób odwracalny, więc dekodowanie wymaga osobnego szkolenia, aby dokładnie przekształcić animowaną reprezentację cyfrową w realistyczne, ciągłe obrazy. Rezultatem jest awatar, który dokładnie odzwierciedla ludzką ekspresję i ruchy, ale nadal jest ograniczony przez ograniczenia obecnej zdolności sztucznej inteligencji do dostrzegania drobnych szczegółów twarzy.
Sieci GAN, modele dyfuzyjne i metody oparte na 3D: trzy filary generowania awatarów
Podstawowe technologie umożliwiające tę transformację są stale udoskonalane, aby dokładniej uchwycić ludzką ekspresję, krok po kroku opierając się na procesie generowania awatarów. Obecnie postęp napędzają trzy główne podejścia, a każde z nich ma szczególne zalety i ograniczenia:
pierwszy, GAN (Generative Adversarial Networks) wykorzystuje dwie sieci neuronowe w tandemie — generator i dyskryminator — do tworzenia wysoce realistycznych obrazów. Takie podejście pozwala na szybkie generowanie obrazów o wysokiej jakości, dzięki czemu nadaje się do zastosowań w czasie rzeczywistym, w których wyraźna jest potrzeba płynnych i responsywnych awatarów. Jednakże, chociaż sieci GAN wyróżniają się szybkością i jakością obrazu, precyzyjne sterowanie nimi może być trudne. Może to ograniczać ich skuteczność w przypadkach wymagających szczegółowej personalizacji.
Modele dyfuzyjne to kolejne potężne narzędzie. Stopniowo przekształcają szum w obraz wysokiej jakości w powtarzalnych krokach. Znane z generowania szczegółowych i wysoce kontrolowanych obrazów, modele dyfuzyjne są wolniejsze i wymagają znacznej mocy obliczeniowej. Dlatego idealnie nadają się do renderowania offline i użycia w czasie rzeczywistym – ale nie za bardzo. Siła tego modelu polega na tworzeniu dopracowanych, fotorealistycznych szczegółów, choć w wolniejszym tempie.
Wreszcie, Metody oparte na 3D takie jak neuronowe pola promieniowania (NeRF) i rozpryskiwanie gaussowskie tworzą reprezentację wizualną poprzez mapowanie informacji przestrzennych i kolorowych na scenę 3D. Metody te różnią się nieznacznie, przy czym Splatting jest szybszy, a NeRF działają wolniej. Podejścia oparte na 3D najlepiej nadają się do gier lub środowisk interaktywnych. Jednak NeRF i Gaussian Splatting mogą nie zapewniać realizmu wizualnego, tworząc obecnie wygląd, który może wydawać się sztuczny w scenariuszach wymagających podobieństwa do człowieka.
Każda technologia zapewnia równowagę pomiędzy szybkością, jakością i kontrolą najlepiej dostosowaną do różnych zastosowań. Sieci GAN są szeroko stosowane w zastosowaniach czasu rzeczywistego ze względu na połączenie szybkości i jakości obrazu, natomiast modele dyfuzyjne są preferowane w kontekstach „offline”, gdzie renderowanie nie odbywa się w czasie rzeczywistym, co pozwala na bardziej intensywne obliczenia w celu uzyskania większej szczegółowości. Metody 3D stale ewoluują pod kątem potrzeb wymagających dużej wydajności, ale obecnie brakuje im realistycznej dokładności wizualnej wymaganej w przypadku przedstawień przypominających ludzi.
Technologie te dość dobrze podsumowują bieżący rozwój i wyzwania w tej dziedzinie. Ciągłe badania mają na celu połączenie ich mocnych stron w celu uzyskania bardziej realistycznych wyników, ale na razie z tym mamy do czynienia.
Wyzwanie AI Avatara „Zęby i brody”.
Tworzenie realistycznych awatarów AI rozpoczyna się od zebrania wysokiej jakości danych szkoleniowych – co samo w sobie jest złożonym zadaniem – ale mniej oczywistym i równie wymagającym aspektem jest uchwycenie drobnych, definiujących człowieka szczegółów, takich jak zęby I brody. Elementy te są niezwykle trudne do dokładnego modelowania, częściowo ze względu na ograniczone dostępne dane szkoleniowe. Na przykład szczegółowe obrazy zębów, zwłaszcza dolnych, są rzadkością w typowych zbiorach danych: często są ukryte w mowie naturalnej. Modele mają trudności z rekonstrukcją realistycznych struktur dentystycznych bez wystarczających przykładów, co często prowadzi do zniekształconych lub nienaturalnych wyglądów, takich jak „kruszenie się” lub dziwne umiejscowienie.
Brody dodają podobny poziom złożoności. Umieszczona blisko ust broda przesuwa się wraz z ruchami twarzy i zmienia się w zależności od oświetlenia, dzięki czemu każda wada jest natychmiast zauważalna. Jeśli nie zostanie precyzyjnie wymodelowana, broda może wydawać się statyczna, rozmazana lub o nienaturalnej teksturze, co pogarsza ogólny realizm awatara.
Innym czynnikiem komplikującym te szczegóły jest percepcja sieci neuronowej. Ludzie intuicyjnie skupiają się na niuansach twarzy, takich jak zęby i zarost, aby zidentyfikować poszczególne osoby, podczas gdy modele neuronowe kierują uwagę na całą twarz, często pomijając te mniejsze, ale kluczowe elementy. Dla modelki zęby i broda mają mniejsze znaczenie; dla ludzi są niezbędnymi znacznikami tożsamości. Można temu zaradzić jedynie poprzez szeroko zakrojone dostrajanie i przekwalifikowanie, często wymagające tyle samo wysiłku, co doskonalenie ogólnej struktury twarzy.
Możemy teraz zobaczyć A podstawowe ograniczenie: chociaż modele te zmierzają w stronę realizmu, niewiele im brakuje do uchwycenia subtelności ludzkiej percepcji.
Ostatnie postępy w technologii awatarów AI sprawiły, że naturalnie wyglądające miny są bliższe rzeczywistości niż kiedykolwiek wcześniej. Sieci GAN, modele dyfuzyjne i pojawiające się podejścia 3D całkowicie udoskonaliły generowanie „gadających głów”, a każde podejście oferuje unikalną perspektywę i zestaw narzędzi do urzeczywistnienia niegdyś futurystycznego pomysłu.
Sieci GAN oferują prędkość niezbędną do zastosowań w czasie rzeczywistym; modele dyfuzyjne zapewniają zróżnicowaną kontrolę, chociaż są wolniejsze. Techniki takie jak Rozpryskiwanie Gaussa w 3D zapewniają wydajność, czasami kosztem wierności wizualnej.
Pomimo tych ulepszeń, technologia ma przed sobą długą drogę, jeśli chodzi o realizm. Niezależnie od tego, jak dopracowany jest Twój model, od czasu do czasu najprawdopodobniej zauważysz nieco dziwny zestaw zębów lub nietypowy zarost. Jednak w miarę zwiększania się dostępności danych wysokiej jakości z czasem sieci neuronowe rozwiną zdolność do wykazywania spójności w sposobie przedstawiania wrodzonych mikrocech człowieka. To, co jest integralną częścią naszej percepcji, jest jedynie parametrem modeli sztucznej inteligencji.
Ta luka podkreśla ciągłą walkę: osiągnięcia technologiczne popychają nas do przodu, jednak cel, jakim jest stworzenie naprawdę realistycznych awatarów, pozostaje nieuchwytny, podobnie jak paradoks Achillesa i żółwia — niezależnie od tego, jak blisko jesteśmy, doskonałość pozostaje poza naszym zasięgiem.