NVIDIA przedstawia Fugatto jako „najbardziej elastyczną maszynę dźwiękową na świecie”

NVIDIA ma odsłonięty Fugatto, generatywny model sztucznej inteligencji umożliwiający tworzenie i modyfikowanie treści audio. Model ma na celu pomóc producentom muzycznym, twórcom filmów i twórcom gier, umożliwiając im generowanie nowych dźwięków za pomocą podpowiedzi tekstowych. Fugatto łączy różne możliwości generowania dźwięku, wykorzystując zaawansowane algorytmy w celu usprawnienia procesów twórczych w branży audio.

NVIDIA przedstawia Fugatto, generatywną sztuczną inteligencję do tworzenia dźwięku

Fugattoskrót od Foundational Generative Audio Transformer Opus 1, został wprowadzony przez firmę NVIDIA, wiodącego na świecie dostawcę chipów i oprogramowania dla systemów AI. Technologia ta może generować i zmieniać dźwięk z istniejących plików audio, co odróżnia go od poprzednich modeli. Może na przykład przekształcić melodię fortepianu w ludzki głos lub zmodyfikować akcent i ton emocjonalny nagrania mówionego. Ta elastyczność pozwala twórcom odkrywać szereg innowacyjnych zastosowań w różnych dziedzinach.

Zespół stojący za Fugatto składa się z kilkunastu badaczy, w tym Rafaela Valle, menedżera ds. badań stosowanych w dziedzinie dźwięku w firmie NVIDIA. Valle podkreślił cel projektu: „Chcieliśmy stworzyć model, który rozumie i generuje dźwięk tak jak ludzie”. Kluczem do projektu Fugatto jest jego zdolność do integrowania wielu zadań związanych z generowaniem i transformacją dźwięku, prezentując nowe właściwości, które wynikają z obszernych danych szkoleniowych.

Użytkownicy mogą instruować Fugatto za pomocą dowolnych podpowiedzi, aby tworzył pejzaże dźwiękowe, fragmenty muzyki, a nawet unikalne efekty dźwiękowe. Na przykład producent może szybko stworzyć prototyp różnych stylów lub instrumentów dla utworu. Warto zauważyć, że Fugatto oferuje techniki takie jak ComposableART, umożliwiające użytkownikom łączenie różnych poleceń. Testy ujawniły zaskakujące wyniki, zgodnie z sugestią Rohana Badlaniego, badacza sztucznej inteligencji zajmującego się modelem, który mimo swojego wykształcenia technicznego opisał to doświadczenie jako satysfakcjonujące artystycznie.

NVIDIA przedstawia Fugatto jako "najbardziej elastyczna maszyna dźwiękowa na świecie" — Fugatto łączy różne możliwości generowania dźwięku, wykorzystując zaawansowane algorytmy w celu usprawnienia procesów twórczych w branży audio (Kredyt obrazu)

Podczas szkolenia Fugatto wykorzystał 2,5 miliarda parametrów i został opracowany na wydajnych systemach DGX firmy NVIDIA wyposażonych w 32 procesory graficzne H100 Tensor Core. Trening modelu opierał się na zróżnicowanym, mieszanym zestawie danych obejmującym miliony próbek audio, co zwiększało jego funkcjonalność związaną z obsługą wielu akcentów i języków. Prace nad tym ambitnym projektem również trwały ponad rok, a zespół przezwyciężył kilka wyzwań związanych z generowaniem danych i szkoleniem modeli.

Fugatto oferuje kilka potencjalnych zastosowań, m.in. dla agencji reklamowych i platform do nauki języków. Sugerowano, że kampanie marketingowe mogłyby zyskać na możliwości dostosowywania narracji do różnych akcentów i nastrojów. W edukacji uczniowie mogą korzystać ze spersonalizowanych kursów z udziałem znajomych głosów. Twórcy gier mogą dynamicznie dostosowywać dźwięk w grze, integrując interaktywne elementy reagujące na działania użytkownika.

Choć możliwości Fugatto są imponujące, NVIDIA nie ogłosiła natychmiastowych planów udostępnienia tej technologii społeczeństwu. Firma wyraża zaniepokojenie potencjalnym niewłaściwym wykorzystaniem generatywnej sztucznej inteligencji, a Bryan Catanzaro, wiceprezes firmy NVIDIA ds. badań stosowanych w zakresie głębokiego uczenia się, podkreśla znaczenie ostrożności ze względu na ryzyko związane z taką technologią. OpenAI i inne firmy działające w tej dziedzinie stoją przed podobnymi wyzwaniami dotyczącymi odpowiedzialnego wdrażania swoich modeli, szczególnie w zakresie praw własności intelektualnej i dezinformacji.

Autor wyróżnionego obrazu: Nvidia

Tags: Nvidia Sztuczna inteligencja

NVIDIA przedstawia Fugatto jako „najbardziej elastyczną maszynę dźwiękową na świecie”

Related Posts

Wreszcie Midjourney V7 jest na żywo, ale brakuje mu kluczowych funkcji

Honor, aby wydać smartfon pakujący baterię 8000 mAh

Czat grupowy zbyt głośno? WhatsApp dodaje niemętą czapkę

WWDC 2025 to oficjalne: daty, bilety i niespodzianki

Nintendo Switch 2 Recenzja: Dotknęliśmy go, graliśmy, teraz chcemy

Australianans Seper Data i kradzież 500 000 USD wyjaśniono: Czy Twoja emerytura jest bezpieczna?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

NVIDIA przedstawia Fugatto jako „najbardziej elastyczną maszynę dźwiękową na świecie”

NVIDIA przedstawia Fugatto, generatywną sztuczną inteligencję do tworzenia dźwięku

Related Posts

Wreszcie Midjourney V7 jest na żywo, ale brakuje mu kluczowych funkcji

Honor, aby wydać smartfon pakujący baterię 8000 mAh

Czat grupowy zbyt głośno? WhatsApp dodaje niemętą czapkę

WWDC 2025 to oficjalne: daty, bilety i niespodzianki

Nintendo Switch 2 Recenzja: Dotknęliśmy go, graliśmy, teraz chcemy

Australianans Seper Data i kradzież 500 000 USD wyjaśniono: Czy Twoja emerytura jest bezpieczna?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us