Bądźmy szczerzy, wszyscy tam byliśmy. Poprosisz telefon o informacje na temat słynnego obrazu „Krzyk”, a on z radością zaoferuje Ci tutoriale na temat malowania na ekranie. Tego rodzaju frustrujące pomyłki były od lat uporczywym błędem w wyszukiwaniu głosowym. Teraz, w niedawnym poście na Blog badawczy Googlenaukowcy Ehsan Variani i Michael Riley zaprezentowali nowy system zwany Odzyskiwanie mowy (S2R) to dociera do sedna problemu. Najważniejszym odkryciem jest to, że pomijając wadliwy etap przekształcania mowy w tekst, S2R zapewnia szybsze i dokładniejsze wyniki. Ma to znaczenie, ponieważ oznacza przejście od zwykłego słyszenia naszych słów do faktycznego zrozumienia naszych intencji, dzięki czemu asystenci głosowi są znacznie mniej irytujący i o wiele bardziej użyteczni. https://storage.googleapis.com/gweb-research2023-media/media/SpeechToRetrieval2_Cascade.mp4
Wideo: Google
Problem z graniem na telefonie
Dlaczego więc asystenci głosowi tak źle sobie radzą? Tradycyjnie stosują dwuetapowy proces zwany a model kaskadowy. Po pierwsze, system automatycznego rozpoznawania mowy (ASR) słucha Twojego głosu i transkrybuje go na tekst. Po drugie, tekst ten jest wprowadzany do standardowej wyszukiwarki. Problem w tym, że proces ten przypomina grę w telefon; jeśli ASR popełni na początku drobny błąd — pomyli „m” z „n” — błąd ten zostanie przekazany dalej, a końcowy wynik wyszukiwania będzie całkowicie błędny. Aby dowiedzieć się, jak duży jest ten problem, zespół Google przeprowadził sprytny eksperyment. Porównali typowy system wyszukiwania oparty na ASR z „idealną” wersją, która korzystała z bezbłędnych, zweryfikowanych przez człowieka transkrypcji tekstu. Zmierzyli jakość wyników za pomocą metryki zwanej Średnia ranga wzajemna (MRR)czyli w zasadzie wynik określający, jak wysoko na liście wyszukiwania pojawia się poprawna odpowiedź. Nic dziwnego, że znaleźli znaczna różnica w wydajności pomiędzy systemem rzeczywistym a systemem idealnym w wielu językach. Ta luka pokazała, że głównym wąskim gardłem było podejście skupiające się na tekście, stwarzające wyraźną szansę na stworzenie inteligentniejszego systemu.
Od dźwięku do znaczenia bezpośrednio
Wprowadź mowę do pobrania lub S2R. Zamiast tłumaczyć Twój głos na tekst, S2R tłumaczy sam dźwięk bezpośrednio w znaczeniu. OK, zatrzymajmy się. Co to naprawdę oznacza? W swojej istocie S2R wykorzystuje wyrafinowaną konfigurację zwaną a architektura z dwoma enkoderami. Pomyśl o tym jak o uniwersalnym serwisie kojarzeń informacyjnym.
- Jedna część, koder dźwiękusłucha Twojego wypowiadanego zapytania i tworzy bogaty profil liczbowy — wektor — który oddaje jego podstawowe znaczenie. Nie chodzi tu tylko o słowa, ale potencjalnie o kontekst i niuanse w Twoim głosie.
- Równolegle A koder dokumentów stworzył już podobne profile dla miliardów dokumentów internetowych.
Kiedy mówisz, system nie próbuje zapisywać słów. Zamiast tego pobiera „profil” zapytania głosowego i natychmiast znajduje „profile” dokumentu, które są najbliżej dopasowania matematycznego. To trochę jak Shazam do wyszukiwania zapytań; znajduje dopasowanie na podstawie podstawowego podpisu, a nie niezdarnej transkrypcji. Cały ten proces omija etap delikatnego tekstu, eliminując ryzyko wystąpienia błędu typu „krzyk” lub „ekran”.
Czy to faktycznie działa w prawdziwym świecie?
Tak, a wyniki są imponujące. Kiedy naukowcy przetestowali S2R na swoim zestawie danych pytań głosowych, odkryli, że tak znacznie przewyższa stary model kaskadowy. Co więcej, jego działanie jest niezwykle zbliżone do teoretycznego „doskonałego” systemu, w którym wykorzystywane są ludzkie transkrypcje. Chociaż nadal istnieje niewielka luka do zamknięcia, S2R skutecznie rozwiązał większość problemów spowodowanych błędami transkrypcji. To nie jest tylko eksperyment laboratoryjny. Firma Google wdrożyła już technologię S2R, która umożliwia wyszukiwanie głosowe w wielu językach. Następnym razem, gdy Twój asystent głosowy poprawnie zrozumie trudne zapytanie, prawdopodobnie zetkniesz się z tą nową technologią na własnej skórze. Aby popchnąć tę dziedzinę do przodu, zespół udostępnił także swoje oprogramowanie na licencji open source Zbiór danych prostych pytań głosowych (SVQ).zapraszając badaczy z całego świata do pomocy w tworzeniu interfejsów głosowych nowej generacji. Rezultatem jest przyszłość, w której możesz wreszcie przestać wypowiadać się jak robot i po prostu rozmawiać ze swoimi urządzeniami jak normalna osoba.





