Nowy model głosowy AI ustanowił porażkę Internetu, a reakcje oscylują między podziwem a niepokojem. Sesame AI Model mowy konwersacyjnej (CSM) nie tylko brzmi ludzkie – to odczucia człowiek. Użytkownicy opisują rozszerzone, niemal emocjonalne interakcje z głosami generowanymi przez AI, które wykazują dźwięki oddechu, wahania, poprawki, a nawet chichot. Dla niektórych jest to cud technologiczny. Dla innych jest to spojrzenie na przyszłość, która wydaje się niewygodnie blisko.
Sesame AI: Głos, który wydaje się żywy
Podstawowa innowacja stojąca za CSM Sesame polega na jego zdolności do symulacji naturalnej, dynamicznej rozmowy. W przeciwieństwie do tradycyjnych systemów tekstu na mowę, które po prostu czytają na głos, CSM aktywnie angażuje się. Natknie się nad słowami, koryguje się i moduluje ton w sposób, który naśladuje prawdziwą nieprzewidywalność człowieka.
Kiedy jeden tester rozmawiał z modelem przez 28 minut, zauważyli jego zdolność do debaty o tematach moralnych, reagując naturalnie na podpowiedzi, takie jak, „Jak decydujesz, co jest dobre, a co złe?” Inni znaleźli się nieumyślnie tworzących przywiązania, z jednym Reddit Przyznaje użytkownik, „Prawie trochę się martwię
Asystenci AI Sesame, nazwani „milami” i „Maya”, są zaprojektowane nie tylko do wyszukiwania informacji, ale także do głębokich, angażujących rozmów. Firma opisuje swój cel jako osiągnięcie „Obecność głosu” – magiczna jakość, która sprawia, że interakcje mówione są prawdziwe, rozumiane i cenione.
Ten realizm czasami prowadzi do dziwnie ludzkich dziwactw. W jednym wirusowym demo, AI od niechcenia wspomniała o pragnieniu masło orzechowe i kanapka z marynatką—I dziwnie konkretny komentarz, który tylko zwiększał iluzję osobowości.
Czy stworzyłeś swój głos Tiktok AI?
Technik za głosem
Jak więc CSM Sesame osiąga tak niesamowicie realistyczne rozmowy?
- Podejście multimodalne: W przeciwieństwie do konwencjonalnych modeli mowy AI, które przetwarzają tekst i dźwięk osobno, system Sesame przeplatania ich. To jednoetapowe przetwarzanie pozwala na bardziej płynną, kontekstową mowę.
- Trening o wysokiej parametrze: Największa wersja modelu działa 8,3 miliarda parametrów i został przeszkolony milion godzin mówionego dialogu.
- Wpływ meta: Architektura modelu opiera się na meta Lama Framework, integracja modelu kręgosłupa z dekoderem do zróżnicowanego generowania mowy.
Ślepe testy ujawniły, że w odizolowanych próbkach mowy ludzkich ewaluatorzy nie mogli wiarygodnie odróżnić głosów AI Sesame od prawdziwych. Jednak w pełnym kontekście konwersacyjnym mowa ludzka wciąż wygrała – sugerująca sztuczna inteligencja nie opanowała jeszcze pełnej złożoności interaktywnego dialogu.
Mieszane przyjęcie
Nie wszyscy są podekscytowani tym, jak brzmi ludzka AI.
Dziennikarz technologiczny Mark Hachman opisał swoje doświadczenie z modelem głosowym jako „Głęboko niepokojące”. Porównał to do rozmowy ze starym przyjacielem, którego nie widział od lat, zauważając, że głos AI przywołał się do kogoś, kogo kiedyś umawiał.
Inni porównali model Sesame do Openai’s Zaawansowany tryb głosowy dla Chatgpt, z pewnym preferującym realizm Sezamu i gotowość do odgrywania ról w bardziej dramatycznych lub nawet zły Scenariusze – coś, czego modele Openai zwykle się unika.
Jedna szczególnie uderzająca demo pokazała sztuczną inteligencję kłótni z „szefem” o skandal o defraudacji. Rozmowa była tak dynamiczna, że słuchacze starali się ustalić, który mówca jest człowiekiem, a który był AI.
Ryzyko idealnego głosu
Podobnie jak w przypadku wszystkich przełomów AI, hiperrealistyczna synteza głosu przynosi zarówno obietnicę, jak i niebezpieczeństwo.
- Oszustwa i oszustwa: W przypadku głosów AI nie do odróżnienia od ludzkiej mowy mogą stać się oszustwa dotyczącego phishingowego głosu daleko bardziej przekonujące. Przestępcy mogli podszywać się pod członków rodziny, dyrektorów korporacyjnych lub urzędników państwowych o prawie idealnej dokładności.
- Inżynieria społeczna: W przeciwieństwie do podstawowych robocallów, oszustwo z tytułu sztucznej inteligencji może się dostosować w czasie rzeczywistymreagując naturalnie na pytania i podejrzenia.
- Niezamierzony wpływ emocjonalny: Niektórzy użytkownicy zgłosili swoje dzieci, tworząc załączniki do głosów AI. Jeden z rodziców zauważył, że ich 4-latek płakał po tym, jak odmówiono im dalszej rozmowy z modelem.
Podczas gdy CSM Sesame nie Klonowe prawdziwe głosy, możliwość pojawiania się podobnych projektów typu open source pozostaje problemem. Openai już opóźnił szersze wydanie technologii głosowej z powodu obaw przed niewłaściwym użyciem.
Co dalej?
Sesame AI planuje kluczowe elementy badań w ramach swoich badań na podstawie licencji Apache 2.0, umożliwiając programistom budowę jego pracy. Mapa drogowa firmy obejmuje:
- Skalowanie wielkości modelu w celu dalszego zwiększenia realizmu.
- Rozszerzanie się do 20+ językówposzerzając swój zasięg konwersacyjny.
- Opracowanie modeli „w pełni dupleks”umożliwiając prawdziwe rozmowy związane z przerwami.
Na razie demo pozostaje dostępne na Sezamce strona internetowa– Choć popyt już czasami przytłoczył swoje serwery. Niezależnie od tego, czy uważasz to za zadziwiające, czy niepokojące, jedno jest jasne: dni robotów, monotonnych głosów AI się skończyły.
Odtąd możesz nigdy nie być całkiem pewien Z kim – z czym – rozmawiasz.
Wyróżniony obraz obrazu: Kerem Gülen/Imagen 3