Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Google nauczył Twojego asystenta głosowego rozumieć, co masz na myśli

byKerem Gülen
14 października 2025
in Research

Bądźmy szczerzy, wszyscy tam byliśmy. Poprosisz telefon o informacje na temat słynnego obrazu „Krzyk”, a on z radością zaoferuje Ci tutoriale na temat malowania na ekranie. Tego rodzaju frustrujące pomyłki były od lat uporczywym błędem w wyszukiwaniu głosowym. Teraz, w niedawnym poście na Blog badawczy Googlenaukowcy Ehsan Variani i Michael Riley zaprezentowali nowy system zwany Odzyskiwanie mowy (S2R) to dociera do sedna problemu. Najważniejszym odkryciem jest to, że pomijając wadliwy etap przekształcania mowy w tekst, S2R zapewnia szybsze i dokładniejsze wyniki. Ma to znaczenie, ponieważ oznacza przejście od zwykłego słyszenia naszych słów do faktycznego zrozumienia naszych intencji, dzięki czemu asystenci głosowi są znacznie mniej irytujący i o wiele bardziej użyteczni. https://storage.googleapis.com/gweb-research2023-media/media/SpeechToRetrieval2_Cascade.mp4

Wideo: Google

Problem z graniem na telefonie

Dlaczego więc asystenci głosowi tak źle sobie radzą? Tradycyjnie stosują dwuetapowy proces zwany a model kaskadowy. Po pierwsze, system automatycznego rozpoznawania mowy (ASR) słucha Twojego głosu i transkrybuje go na tekst. Po drugie, tekst ten jest wprowadzany do standardowej wyszukiwarki. Problem w tym, że proces ten przypomina grę w telefon; jeśli ASR popełni na początku drobny błąd — pomyli „m” z „n” — błąd ten zostanie przekazany dalej, a końcowy wynik wyszukiwania będzie całkowicie błędny. Aby dowiedzieć się, jak duży jest ten problem, zespół Google przeprowadził sprytny eksperyment. Porównali typowy system wyszukiwania oparty na ASR z „idealną” wersją, która korzystała z bezbłędnych, zweryfikowanych przez człowieka transkrypcji tekstu. Zmierzyli jakość wyników za pomocą metryki zwanej Średnia ranga wzajemna (MRR)czyli w zasadzie wynik określający, jak wysoko na liście wyszukiwania pojawia się poprawna odpowiedź. Nic dziwnego, że znaleźli znaczna różnica w wydajności pomiędzy systemem rzeczywistym a systemem idealnym w wielu językach. Ta luka pokazała, że ​​głównym wąskim gardłem było podejście skupiające się na tekście, stwarzające wyraźną szansę na stworzenie inteligentniejszego systemu.

Od dźwięku do znaczenia bezpośrednio

Wprowadź mowę do pobrania lub S2R. Zamiast tłumaczyć Twój głos na tekst, S2R tłumaczy sam dźwięk bezpośrednio w znaczeniu. OK, zatrzymajmy się. Co to naprawdę oznacza? W swojej istocie S2R wykorzystuje wyrafinowaną konfigurację zwaną a architektura z dwoma enkoderami. Pomyśl o tym jak o uniwersalnym serwisie kojarzeń informacyjnym.

  • Jedna część, koder dźwiękusłucha Twojego wypowiadanego zapytania i tworzy bogaty profil liczbowy — wektor — który oddaje jego podstawowe znaczenie. Nie chodzi tu tylko o słowa, ale potencjalnie o kontekst i niuanse w Twoim głosie.
  • Równolegle A koder dokumentów stworzył już podobne profile dla miliardów dokumentów internetowych.

Kiedy mówisz, system nie próbuje zapisywać słów. Zamiast tego pobiera „profil” zapytania głosowego i natychmiast znajduje „profile” dokumentu, które są najbliżej dopasowania matematycznego. To trochę jak Shazam do wyszukiwania zapytań; znajduje dopasowanie na podstawie podstawowego podpisu, a nie niezdarnej transkrypcji. Cały ten proces omija etap delikatnego tekstu, eliminując ryzyko wystąpienia błędu typu „krzyk” lub „ekran”.

Czy to faktycznie działa w prawdziwym świecie?

Tak, a wyniki są imponujące. Kiedy naukowcy przetestowali S2R na swoim zestawie danych pytań głosowych, odkryli, że tak znacznie przewyższa stary model kaskadowy. Co więcej, jego działanie jest niezwykle zbliżone do teoretycznego „doskonałego” systemu, w którym wykorzystywane są ludzkie transkrypcje. Chociaż nadal istnieje niewielka luka do zamknięcia, S2R skutecznie rozwiązał większość problemów spowodowanych błędami transkrypcji. To nie jest tylko eksperyment laboratoryjny. Firma Google wdrożyła już technologię S2R, która umożliwia wyszukiwanie głosowe w wielu językach. Następnym razem, gdy Twój asystent głosowy poprawnie zrozumie trudne zapytanie, prawdopodobnie zetkniesz się z tą nową technologią na własnej skórze. Aby popchnąć tę dziedzinę do przodu, zespół udostępnił także swoje oprogramowanie na licencji open source Zbiór danych prostych pytań głosowych (SVQ).zapraszając badaczy z całego świata do pomocy w tworzeniu interfejsów głosowych nowej generacji. Rezultatem jest przyszłość, w której możesz wreszcie przestać wypowiadać się jak robot i po prostu rozmawiać ze swoimi urządzeniami jak normalna osoba.


Autor wyróżnionego obrazu

Tags: Googles2r

Related Posts

Nowe badania pokazują, że logika sztucznej inteligencji przetrwa nawet po wymazaniu jej pamięci

Nowe badania pokazują, że logika sztucznej inteligencji przetrwa nawet po wymazaniu jej pamięci

12 listopada 2025
Badania antropiczne wykazały, że sztuczna inteligencja ma ograniczoną samoświadomość własnych myśli

Badania antropiczne wykazały, że sztuczna inteligencja ma ograniczoną samoświadomość własnych myśli

12 listopada 2025
Badanie oksfordzkie wykazało, że testy porównawcze AI często zawyżają wydajność modeli

Badanie oksfordzkie wykazało, że testy porównawcze AI często zawyżają wydajność modeli

12 listopada 2025
Google ujawnia w czasie rzeczywistym złośliwe oprogramowanie wykorzystujące sztuczną inteligencję, korzystające z LLM

Google ujawnia w czasie rzeczywistym złośliwe oprogramowanie wykorzystujące sztuczną inteligencję, korzystające z LLM

12 listopada 2025
Naukowcy odkryli, że samochody elektryczne likwidują „dług węglowy” w niecałe dwa lata

Naukowcy odkryli, że samochody elektryczne likwidują „dług węglowy” w niecałe dwa lata

5 listopada 2025
Naukowcy z USC budują sztuczne neurony, które fizycznie myślą jak mózg

Naukowcy z USC budują sztuczne neurony, które fizycznie myślą jak mózg

4 listopada 2025

Recent Posts

  • Nowe badania pokazują, że logika sztucznej inteligencji przetrwa nawet po wymazaniu jej pamięci
  • Badania antropiczne wykazały, że sztuczna inteligencja ma ograniczoną samoświadomość własnych myśli
  • Główny naukowiec zajmujący się sztuczną inteligencją w Meta, Yann LeCun, planuje odejść, aby uruchomić start-up będący modelem światowym
  • Google One dodaje czyszczenie przesuwaniem w stylu Tindera i przeprojektowanie Material 3
  • Google wciąż ma marzenie o komputerze z Androidem

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.