Google’s Gemini AI Assistant umożliwia teraz przesyłanie plików audio, umożliwiając użytkownikom transkrypcję, podsumowanie i wyodrębnienie kluczowych informacji z nagrań. Ta nowa funkcja konwertuje do 10 minut notatek głosowych, spotkań, wykładów i wywiadów w dokumentach możliwych do wyszukiwania bezpośrednio w środowisku AI. Przesłanie plików audio są obsługiwane zarówno w aplikacjach internetowych, jak i mobilnych. Użytkownicy mogą uzyskać dostęp do funkcji za pośrednictwem standardowego interfejsu Pliku. Różni się to od przetwarzania poleceń głosowych w czasie rzeczywistym Gemini Live, ponieważ nowa funkcja przetwarza wstępnie nagrany dźwięk do ekstrakcji i analizy danych. Josh Woodward, wiceprezes Google z Gemini, stwierdził, że przesyłanie plików audio było najbardziej żądaną funkcją użytkowników Gemini. Zapotrzebowanie to podkreśla potrzebę usprawnienia przetwarzania dźwięku w ramach asystenta AI.
Dokładność transkrypcji i integracja funkcji
Podczas testowania Gemini dokładnie przepisało różne typy audio, w tym szkice albumów komediowych i rozmowy telefoniczne, z niewielkimi błędami w rozpoznawaniu nazw. System skutecznie zidentyfikował kluczowe elementy i wygenerował listy rzeczy do zrobienia z treści audio. Dodanie przetwarzania audio jest zgodne z najnowszymi integracjami GEMINI, takimi jak implementacje w różnych aplikacjach, testowanie wizualnego interfejsu opartego na kartach i rozszerzone opcje personalizacji. Te aktualizacje wspólnie zwiększają funkcjonalność i wrażenia użytkownika Gemini.
Porównanie z innymi asystentami AI
Chociaż możliwości audio Gemini nie są unikalne, są one porównywalne z funkcjami konkurentów, takich jak Chatgpt, które wykorzystują model transkrypcji Whisper. Anthropic’s Claude obsługuje również przetwarzanie dźwięku w niektórych narzędziach programistycznych, a zakłopotanie może wyodrębniać dane z filmów z YouTube. Gemini ma na celu skupienie się na codziennych przypadkach użycia dla szerokiej bazy użytkowników.
Zaawansowane przetwarzanie danych audio
Oprócz prostej transkrypcji Gemini pozwala użytkownikom żądać uproszczenia języka, wyodrębnić komentarze specyficzne dla mówcy, generować pytania z treści audio lub tworzyć przewodniki studiów z zapisanych dyskusji. Te opcje zapewniają narzędzia do wydajnego manipulowania i ponownym przeznaczeniem informacji audio.
Ograniczenia funkcji audio
Obecny 10-minutowy limit przesyłania plików audio ogranicza jego zastosowanie do dłuższych nagrań. Użytkownicy wolnego poziomu stają również przed codziennymi limitami użytkowania w przetwarzaniu audio. Ograniczenia te mogą mieć wpływ na użytkowników o szerokich potrzebach przetwarzania dźwięku. Google nie opublikowało konkretnych cen za duże przetwarzanie audio. Jednak przetwarzanie audio jest zintegrowane z regularnym limitem Gemini. Sugeruje to, że użytkownicy powinni zarządzać ich użyciem, aby uniknąć przekroczenia przydzielonych zasobów.





