NVIDIA ma odsłonięty Fugatto, generatywny model sztucznej inteligencji umożliwiający tworzenie i modyfikowanie treści audio. Model ma na celu pomóc producentom muzycznym, twórcom filmów i twórcom gier, umożliwiając im generowanie nowych dźwięków za pomocą podpowiedzi tekstowych. Fugatto łączy różne możliwości generowania dźwięku, wykorzystując zaawansowane algorytmy w celu usprawnienia procesów twórczych w branży audio.
NVIDIA przedstawia Fugatto, generatywną sztuczną inteligencję do tworzenia dźwięku
Fugattoskrót od Foundational Generative Audio Transformer Opus 1, został wprowadzony przez firmę NVIDIA, wiodącego na świecie dostawcę chipów i oprogramowania dla systemów AI. Technologia ta może generować i zmieniać dźwięk z istniejących plików audio, co odróżnia go od poprzednich modeli. Może na przykład przekształcić melodię fortepianu w ludzki głos lub zmodyfikować akcent i ton emocjonalny nagrania mówionego. Ta elastyczność pozwala twórcom odkrywać szereg innowacyjnych zastosowań w różnych dziedzinach.
Zespół stojący za Fugatto składa się z kilkunastu badaczy, w tym Rafaela Valle, menedżera ds. badań stosowanych w dziedzinie dźwięku w firmie NVIDIA. Valle podkreślił cel projektu: „Chcieliśmy stworzyć model, który rozumie i generuje dźwięk tak jak ludzie”. Kluczem do projektu Fugatto jest jego zdolność do integrowania wielu zadań związanych z generowaniem i transformacją dźwięku, prezentując nowe właściwości, które wynikają z obszernych danych szkoleniowych.
Użytkownicy mogą instruować Fugatto za pomocą dowolnych podpowiedzi, aby tworzył pejzaże dźwiękowe, fragmenty muzyki, a nawet unikalne efekty dźwiękowe. Na przykład producent może szybko stworzyć prototyp różnych stylów lub instrumentów dla utworu. Warto zauważyć, że Fugatto oferuje techniki takie jak ComposableART, umożliwiające użytkownikom łączenie różnych poleceń. Testy ujawniły zaskakujące wyniki, zgodnie z sugestią Rohana Badlaniego, badacza sztucznej inteligencji zajmującego się modelem, który mimo swojego wykształcenia technicznego opisał to doświadczenie jako satysfakcjonujące artystycznie.
Podczas szkolenia Fugatto wykorzystał 2,5 miliarda parametrów i został opracowany na wydajnych systemach DGX firmy NVIDIA wyposażonych w 32 procesory graficzne H100 Tensor Core. Trening modelu opierał się na zróżnicowanym, mieszanym zestawie danych obejmującym miliony próbek audio, co zwiększało jego funkcjonalność związaną z obsługą wielu akcentów i języków. Prace nad tym ambitnym projektem również trwały ponad rok, a zespół przezwyciężył kilka wyzwań związanych z generowaniem danych i szkoleniem modeli.
Fugatto oferuje kilka potencjalnych zastosowań, m.in. dla agencji reklamowych i platform do nauki języków. Sugerowano, że kampanie marketingowe mogłyby zyskać na możliwości dostosowywania narracji do różnych akcentów i nastrojów. W edukacji uczniowie mogą korzystać ze spersonalizowanych kursów z udziałem znajomych głosów. Twórcy gier mogą dynamicznie dostosowywać dźwięk w grze, integrując interaktywne elementy reagujące na działania użytkownika.
Choć możliwości Fugatto są imponujące, NVIDIA nie ogłosiła natychmiastowych planów udostępnienia tej technologii społeczeństwu. Firma wyraża zaniepokojenie potencjalnym niewłaściwym wykorzystaniem generatywnej sztucznej inteligencji, a Bryan Catanzaro, wiceprezes firmy NVIDIA ds. badań stosowanych w zakresie głębokiego uczenia się, podkreśla znaczenie ostrożności ze względu na ryzyko związane z taką technologią. OpenAI i inne firmy działające w tej dziedzinie stoją przed podobnymi wyzwaniami dotyczącymi odpowiedzialnego wdrażania swoich modeli, szczególnie w zakresie praw własności intelektualnej i dezinformacji.
Autor wyróżnionego obrazu: Nvidia