YouTube opracowuje funkcję sztucznej inteligencji, która będzie generować synchronizację ruchu warg w filmach z automatycznym dubbingiem. Technologia ta ma na celu zwiększenie realizmu poprzez modyfikację ruchów ust mówiącego w celu dostosowania ich do przetłumaczonych ścieżek audio, co ma na celu zwiększenie zaangażowania widza. Według Trendy cyfrowetechniczne podstawy systemu, jak szczegółowo opisał Buddhika Kottahachchi, lider produktu YouTube ds. automatycznego dubbingu, opierają się na specjalnie zaprojektowanej sztucznej inteligencji. Kottahachchi wyjaśnił, że technologia dokonuje skomplikowanych zmian na poziomie pikseli w ustach osoby mówiącej na ekranie, aby zapewnić synchronizację z dubbingowanym dźwiękiem. Model AI uwzględnia trójwymiarową percepcję struktur twarzy, umożliwiając analizę geometrii warg i zębów. Służy także do interpretowania i odtwarzania mimiki twarzy towarzyszącej mowie. To podejście do modelowania 3D pozwala systemowi dokładniej symulować ruchy fizyczne wymagane do mówienia w innym języku. W początkowej fazie funkcja synchronizacji ruchu warg będzie miała szczególne ograniczenia techniczne i językowe. Przetwarzanie AI jest obecnie ograniczone do filmów o rozdzielczości 1080p i nie można go zastosować do treści 4K. W chwili premiery obsługa języków będzie ograniczona do angielskiego, francuskiego, niemieckiego, portugalskiego i hiszpańskiego. Po tym okresie wstępnym YouTube planuje rozszerzyć obsługę na ponad 20 języków. To rozszerzenie ma na celu dostosowanie funkcji synchronizacji ruchu warg do pełnej gamy języków oferowanych obecnie w usłudze automatycznego kopiowania YouTube. YouTube nie ogłosił dokładnej daty premiery tej funkcji. Oczekuje się, że firma wprowadzi tę technologię po raz pierwszy w ramach programu pilotażowego z udziałem małej grupy twórców, co będzie stanowić strategię odzwierciedlającą wprowadzenie funkcji automatycznego kopiowania. Usługa automatycznego dubbingu została udostępniona szerszej publiczności zaledwie w zeszłym miesiącu, co wskazuje, że dodanie synchronizacji ruchu warg może przejść dłuższy okres testów. Twórcy otrzymają kontrolę nad jej wykorzystaniem, w tym zgłoszoną opcję wyłączenia tej funkcji dla całego kanału lub poszczególnych filmów, dając im ostateczny głos w sprawie prezentacji swoich treści. Ta funkcja może być dostępna za dodatkową opłatą, choć konkretna cena nie została jeszcze ustalona. Nie wiadomo, czy opłatę poniesie twórca czy konsument, ale raporty sugerują, że będzie to prawdopodobnie konsument. Aby zaradzić potencjalnemu nadużyciu, YouTube planuje wdrożyć zabezpieczenia. Obejmują one opisowe ujawnienie informujące widzów o zmianie AI oraz niewidoczny, trwały odcisk palca osadzony w filmie. Opisuje się, że ten cyfrowy znak wodny ma podobne działanie do SynthID, narzędzia służącego do identyfikacji treści generowanych przez sztuczną inteligencję, zapewniającego mechanizm śledzenia i uwierzytelniania. YouTube nie jest jedyną platformą rozwijającą tę technologię. Meta podjęła podobną inicjatywę na swojej platformie Instagram, gdzie w zeszłym roku uruchomiła program pilotażowy dotyczący kopiowania i synchronizacji ruchu warg. Choć szczegółowe informacje na temat powodzenia programu są ograniczone, niedawno rozszerzono go o obsługę czterech języków: angielskiego, hindi, portugalskiego i hiszpańskiego. https://www.youtube.com/watch?v=8W3noE2Uxag





