MyShell: Wypróbowaliśmy nowy model OpenVoice

MyShell we współpracy z wiodącymi instytucjami akademickimi zaprezentował OpenVoice, przełomową technologię klonowania głosu typu open source, wyznaczającą nowe standardy w dziedzinie replikacji dźwięku opartej na sztucznej inteligencji.

Technologia klonowania głosu robi postępy, a godnego uwagi postępu dokonały start-upy takie jak Jedenaście laboratoriów, które zabezpieczyły znaczne środki finansowe na rozwój swoich zastrzeżonych algorytmów i oprogramowania opartego na sztucznej inteligencji. Narzędzia te służą do tworzenia replik dźwiękowych ludzkich głosów.

Pojawiło się jednak ciekawe rozwiązanie w postaci OpenVoice, wspólnego dzieła zespołów z Massachusetts Institute of Technology (MIT), Uniwersytetu Tsinghua w Pekinie i kanadyjskiej firmy MyShell zajmującej się sztuczną inteligencją. OpenVoice to platforma typu open source do klonowania głosu, wyróżniająca się szybkim przetwarzaniem i zaawansowanymi opcjami dostosowywania, co odróżnia ją od istniejących technologii klonowania głosu.

Dziś z dumą udostępniamy kod źródłowy naszego algorytmu OpenVoice, kierując się naszym podstawowym etosem – sztuczna inteligencja dla wszystkich.

Przeżyj to teraz: https://t.co/zHJpeVpX3t. Klonuj głosy z niezrównaną precyzją, ze szczegółową kontrolą tonu, od emocji po akcent, rytm, pauzy i intonację, za pomocą zaledwie… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) 2 stycznia 2024 r

Aby zwiększyć dostępność i przejrzystość, firma udostępniła link do swojej szczegółowej recenzji artykuł badawczy szczegółowo opracowując rozwój OpenVoice. Dodatkowo udostępnili użytkownikom punkty dostępu, w których mogą eksperymentować z tą technologią. Należą do nich interfejs aplikacji internetowej MyShell, który wymaga rejestracji użytkownika, oraz Przytulana twarzdostępne publicznie bez konieczności zakładania konta.

MyShell angażuje się w działalność szerszej społeczności badawczej, traktując OpenVoice jako dopiero początek. Patrząc w przyszłość, planują rozszerzyć wsparcie poprzez granty, zbiory danych i zasoby obliczeniowe, aby wesprzeć badania nad otwartym oprogramowaniem. Przewodnią zasadą MyShell jest „AI dla wszystkich”, podkreślająca znaczenie języka, wzroku i głosu jako trzech kluczowych elementów przyszłej sztucznej inteligencji ogólnej (AGI).

W dziedzinie badań, chociaż w modelach open source nastąpił znaczny postęp w zakresie modalności językowych i wzrokowych, w sektorze głosowym pozostaje luka. W szczególności istnieje zapotrzebowanie na solidny, natychmiast responsywny model klonowania głosu, oferujący konfigurowalne możliwości generowania głosu. MyShell ma na celu wypełnienie tej luki, przesuwając granice technologii głosowej w AGI.

Poznać Murfa AI: zamiana tekstu na mowę w ciągu kilku sekund

Jak korzystać z Myshell AI?

Wykonaj następujące kroki:

Przejdź na oficjalną stronę MyShell AI.

Kliknij „Uruchom aplikację”
Wybierz „Czat” po lewej stronie.

Aby korzystać z funkcji „MyShell Voice Clone”, musisz zarejestrować się za pomocą konta. Zawsze możesz skorzystać z konta Google.
Następnie kliknij „Start” – znajduje się on na dole strony.
Prześlij nagranie głosowe i wprowadź tekst w języku angielskim, który chcesz przekonwertować na dźwięk.

Kliknij „Generuj”. Będzie to kosztować 10 waluty w aplikacji.

Wyniki zostaną przesłane do Ciebie za pośrednictwem czatu.

Notatka redaktora: Dla porównania przesłałem własne nagranie głosowe, które mówi: „Technologia klonowania głosu robi postępy, a godnego uwagi postępu dokonały start-upy takie jak ElevenLabs”.

Następnie poprosiliśmy o wynik, który brzmi: „Ten plik audio został utworzony przy użyciu MyShell AI. Sami oceńcie, jaki był sukces!”

Wejście:

Wyjście:

Nie nazwałbym tego wyniku bardzo udanym, ale niesamowite jest zobaczyć, jak szybki jest. Dodaj, że nie jestem native speakerem.

Jak działa technologia OpenVoice?

Technologia OpenVoice, opracowana przez Qina, Wenlianga Zhao i Xumina Yu z Uniwersytetu Tsinghua oraz Xin Sun z MyShell, została opisana w ich artykule naukowym. Ta sztuczna inteligencja do klonowania głosu opiera się na architekturze podwójnego modelu: modelu zamiany tekstu na mowę (TTS) i „konwerterze tonów”.

Model TTS odpowiada za zarządzanie parametrami stylu i językami. Został przeszkolony z wykorzystaniem 30 000 zdań próbek audio, które obejmowały głosy z amerykańskimi i brytyjskimi akcentami w języku angielskim, a także osoby mówiące po chińsku i japońsku. Próbki te zostały wyraźnie oznakowane, aby odzwierciedlić wyrażane w nich emocje. Modelka nauczyła się z tych klipów niuansów, takich jak intonacja, rytm i pauzy.

Z drugiej strony model konwertera tonów został przeszkolony na podstawie obszernego zestawu danych zawierającego ponad 300 000 próbek audio z ponad 20 000 różnych głośników.

W obu modelach dźwięk mowy ludzkiej został przekształcony w fonemy – podstawowe jednostki dźwiękowe różnicujące słowa. Zostały one następnie przedstawione poprzez osadzenie wektorów.

Unikalny proces polega na zastosowaniu „głośnika podstawowego” w modelu TTS w połączeniu z dźwiękiem pochodzącym z nagranego dźwięku użytkownika. Ta kombinacja pozwala modelom nie tylko odtworzyć głos użytkownika, ale także modyfikować „kolor tonu”, czyli emocjonalną ekspresję mówionego tekstu.

Zespół zamieścił w swoim artykule diagram ilustrujący interakcję tych dwóch modeli:

Podkreślają, że ich metoda jest koncepcyjnie prosta, ale skuteczna. Wymaga również znacznie mniej zasobów obliczeniowych w porównaniu do innych metod klonowania głosu, takich jak Voicebox Meta.

„Chcieliśmy opracować najbardziej elastyczny jak dotąd model natychmiastowego klonowania głosu. Elastyczność oznacza tutaj elastyczną kontrolę nad stylami/emocjami/akcentem itp. i możliwość dostosowania się do dowolnego języka. Nikt wcześniej nie mógł tego zrobić, bo to zbyt trudne. Kieruję grupą doświadczonych naukowców zajmujących się sztuczną inteligencją i spędziłem kilka miesięcy na znalezieniu rozwiązania. Odkryliśmy, że istnieje bardzo elegancki sposób na podzielenie trudnego zadania na pewne wykonalne podzadania, aby osiągnąć to, co jako całość wydaje się zbyt trudne. Oddzielony rurociąg okazuje się bardzo skuteczny, ale także bardzo prosty” – stwierdził Qin w e-mailu przesłanym przez VentureBeat.

MyShell: Wypróbowaliśmy nowy model OpenVoice

Related Posts

IEA Ostrzega: AI może podwoić globalne zużycie energii w centrum danych do 2030

Dlaczego rzucanie większej liczby komputerów AI w sprawie weryfikacji może być błędem

Incident.io Agenci AI otrzymali właśnie 62 mln USD na zbadanie twoich awarii

Openai Supercerges Chatgpt z ulepszoną pamięcią

10 najlepszych gier z The Triple-I Initiative Showcase

Auto Android Auto Aktualizacja po cichu ujawnia wskazówki na temat projektu Google Astra

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

MyShell: Wypróbowaliśmy nowy model OpenVoice

Jak korzystać z Myshell AI?

Jak działa technologia OpenVoice?

Related Posts

IEA Ostrzega: AI może podwoić globalne zużycie energii w centrum danych do 2030

Dlaczego rzucanie większej liczby komputerów AI w sprawie weryfikacji może być błędem

Incident.io Agenci AI otrzymali właśnie 62 mln USD na zbadanie twoich awarii

Openai Supercerges Chatgpt z ulepszoną pamięcią

10 najlepszych gier z The Triple-I Initiative Showcase

Auto Android Auto Aktualizacja po cichu ujawnia wskazówki na temat projektu Google Astra

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us