Pojawiło się jednak ciekawe rozwiązanie w postaci OpenVoice, wspólnego dzieła zespołów z Massachusetts Institute of Technology (MIT), Uniwersytetu Tsinghua w Pekinie i kanadyjskiej firmy MyShell zajmującej się sztuczną inteligencją. OpenVoice to platforma typu open source do klonowania głosu, wyróżniająca się szybkim przetwarzaniem i zaawansowanymi opcjami dostosowywania, co odróżnia ją od istniejących technologii klonowania głosu.
Dziś z dumą udostępniamy kod źródłowy naszego algorytmu OpenVoice, kierując się naszym podstawowym etosem – sztuczna inteligencja dla wszystkich.
Przeżyj to teraz: https://t.co/zHJpeVpX3t. Klonuj głosy z niezrównaną precyzją, ze szczegółową kontrolą tonu, od emocji po akcent, rytm, pauzy i intonację, za pomocą zaledwie… pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai) 2 stycznia 2024 r
Aby zwiększyć dostępność i przejrzystość, firma udostępniła link do swojej szczegółowej recenzji artykuł badawczy szczegółowo opracowując rozwój OpenVoice. Dodatkowo udostępnili użytkownikom punkty dostępu, w których mogą eksperymentować z tą technologią. Należą do nich interfejs aplikacji internetowej MyShell, który wymaga rejestracji użytkownika, oraz Przytulana twarzdostępne publicznie bez konieczności zakładania konta.
MyShell angażuje się w działalność szerszej społeczności badawczej, traktując OpenVoice jako dopiero początek. Patrząc w przyszłość, planują rozszerzyć wsparcie poprzez granty, zbiory danych i zasoby obliczeniowe, aby wesprzeć badania nad otwartym oprogramowaniem. Przewodnią zasadą MyShell jest „AI dla wszystkich”, podkreślająca znaczenie języka, wzroku i głosu jako trzech kluczowych elementów przyszłej sztucznej inteligencji ogólnej (AGI).
W dziedzinie badań, chociaż w modelach open source nastąpił znaczny postęp w zakresie modalności językowych i wzrokowych, w sektorze głosowym pozostaje luka. W szczególności istnieje zapotrzebowanie na solidny, natychmiast responsywny model klonowania głosu, oferujący konfigurowalne możliwości generowania głosu. MyShell ma na celu wypełnienie tej luki, przesuwając granice technologii głosowej w AGI.
Poznać Murfa AI: zamiana tekstu na mowę w ciągu kilku sekund
Jak korzystać z Myshell AI?
Wykonaj następujące kroki:
- Przejdź na oficjalną stronę MyShell AI.

- Kliknij „Uruchom aplikację”
- Wybierz „Czat” po lewej stronie.

- Aby korzystać z funkcji „MyShell Voice Clone”, musisz zarejestrować się za pomocą konta. Zawsze możesz skorzystać z konta Google.
- Następnie kliknij „Start” – znajduje się on na dole strony.
- Prześlij nagranie głosowe i wprowadź tekst w języku angielskim, który chcesz przekonwertować na dźwięk.

- Kliknij „Generuj”. Będzie to kosztować 10 waluty w aplikacji.

- Wyniki zostaną przesłane do Ciebie za pośrednictwem czatu.
Notatka redaktora: Dla porównania przesłałem własne nagranie głosowe, które mówi: „Technologia klonowania głosu robi postępy, a godnego uwagi postępu dokonały start-upy takie jak ElevenLabs”.
Następnie poprosiliśmy o wynik, który brzmi: „Ten plik audio został utworzony przy użyciu MyShell AI. Sami oceńcie, jaki był sukces!”
Wejście:
Wyjście:
Nie nazwałbym tego wyniku bardzo udanym, ale niesamowite jest zobaczyć, jak szybki jest. Dodaj, że nie jestem native speakerem.
Jak działa technologia OpenVoice?
Technologia OpenVoice, opracowana przez Qina, Wenlianga Zhao i Xumina Yu z Uniwersytetu Tsinghua oraz Xin Sun z MyShell, została opisana w ich artykule naukowym. Ta sztuczna inteligencja do klonowania głosu opiera się na architekturze podwójnego modelu: modelu zamiany tekstu na mowę (TTS) i „konwerterze tonów”.
Model TTS odpowiada za zarządzanie parametrami stylu i językami. Został przeszkolony z wykorzystaniem 30 000 zdań próbek audio, które obejmowały głosy z amerykańskimi i brytyjskimi akcentami w języku angielskim, a także osoby mówiące po chińsku i japońsku. Próbki te zostały wyraźnie oznakowane, aby odzwierciedlić wyrażane w nich emocje. Modelka nauczyła się z tych klipów niuansów, takich jak intonacja, rytm i pauzy.
Z drugiej strony model konwertera tonów został przeszkolony na podstawie obszernego zestawu danych zawierającego ponad 300 000 próbek audio z ponad 20 000 różnych głośników.
W obu modelach dźwięk mowy ludzkiej został przekształcony w fonemy – podstawowe jednostki dźwiękowe różnicujące słowa. Zostały one następnie przedstawione poprzez osadzenie wektorów.
Unikalny proces polega na zastosowaniu „głośnika podstawowego” w modelu TTS w połączeniu z dźwiękiem pochodzącym z nagranego dźwięku użytkownika. Ta kombinacja pozwala modelom nie tylko odtworzyć głos użytkownika, ale także modyfikować „kolor tonu”, czyli emocjonalną ekspresję mówionego tekstu.
Zespół zamieścił w swoim artykule diagram ilustrujący interakcję tych dwóch modeli:

Podkreślają, że ich metoda jest koncepcyjnie prosta, ale skuteczna. Wymaga również znacznie mniej zasobów obliczeniowych w porównaniu do innych metod klonowania głosu, takich jak Voicebox Meta.
„Chcieliśmy opracować najbardziej elastyczny jak dotąd model natychmiastowego klonowania głosu. Elastyczność oznacza tutaj elastyczną kontrolę nad stylami/emocjami/akcentem itp. i możliwość dostosowania się do dowolnego języka. Nikt wcześniej nie mógł tego zrobić, bo to zbyt trudne. Kieruję grupą doświadczonych naukowców zajmujących się sztuczną inteligencją i spędziłem kilka miesięcy na znalezieniu rozwiązania. Odkryliśmy, że istnieje bardzo elegancki sposób na podzielenie trudnego zadania na pewne wykonalne podzadania, aby osiągnąć to, co jako całość wydaje się zbyt trudne. Oddzielony rurociąg okazuje się bardzo skuteczny, ale także bardzo prosty” – stwierdził Qin w e-mailu przesłanym przez VentureBeat.