Google’s Gemini Live, początkowo ujawnione na zeszłorocznym Made by Google Event, otrzymuje znaczące ulepszenia. Ulepszenia te obejmują nakładki wizualne podczas udostępniania kanałów aparatu oraz nowy model audio zaprojektowany do bardziej naturalnych rozmów. Ulepszenia mają na celu uczynienie Gemini na żywo bardziej pomocnym i responsywnym asystentem cyfrowym.
Od jego wprowadzenia, Bliźnięta na żywo odnotowano kilka ulepszeń, w szczególności możliwość dzielenia się kanałami i ekranami aparatów. Google ogłosił teraz ulepszenie swoich możliwości udostępniania aparatów i nowy natywny model audio w celu dalszego zwiększenia naturalności interakcji z AI Chatbot.
Podczas prezentacji w nadchodzącej serii Google Pixel 10 Google przedstawił szczegóły dotyczące nadchodzących ulepszeń na żywo na Androidzie. Kluczową funkcją jest dodanie nakładek wizualnych, które podkreślają określone obiekty w kanale aparatu. Te wskazówki wizualne mają postać prostokątów białych wokół przedmiotów zainteresowania, a okolica nieco przyciemniona, aby zapewnić znaczenie.
Funkcja „Wizualne wskazówki” ma na celu pomóc użytkownikom w szybkim zlokalizowaniu i identyfikacji elementów w polu widzenia aparatu. Przykłady zamierzonych zastosowań obejmują wyróżnienie właściwego przycisku na maszynie, identyfikację określonego ptaka w stadzie lub wskazanie odpowiedniego narzędzia dla konkretnego projektu. Ta funkcja obejmuje również udzielanie porad, takich jak zalecenie odpowiedniego obuwia na określoną okazję.
Zdolność wizualnych wskazówek może również zarządzać trudniejszymi scenariuszami. Menedżer produktu Google opowiedział osobiste wrażenia podczas międzynarodowej podróży, podczas której napotkał trudności z interpretacją znaków parkingowych, oznaczeń drogowych i lokalnych przepisów. Korzystając z Gemini Live, menedżer produktu wskazał kamerę na miejscu i zapytał o dopuszczalność parkowania. Gemini Live następnie skonsultował się z lokalnymi zasadami, przetłumaczył znaki i podkreślił obszar na ulicy, oferując bezpłatny parking na dwie godziny.
Wizualne wskazówki będą dostępne bezpośrednio w Google Pixel 10 Series i rozpocznie wdrażanie innych urządzeń z Androidem w następnym tygodniu. Rozszerzenie urządzeń iOS jest planowane w kolejnych tygodniach. Subskrypcja Google AI Pro lub Ultra nie będzie konieczna w celu uzyskania dostępu do funkcji wizualnych.
Oprócz wizualnych nakładek Google wdraża nowy natywny model audio w ramach Gemini Live. Ten model został zaprojektowany w celu ułatwienia bardziej responsywnych i ekspresyjnych rozmów.
Nowy model audio będzie odpowiednio odpowiedzieć na podstawie kontekstu rozmowy. Na przykład, omawiając stresujący temat, model audio zareaguje przy użyciu spokojniejszego i bardziej zmierzonego tonu.
Użytkownicy będą mieli kontrolę nad cechami mowy modelu audio. Jeśli użytkownikowi trudno nadążyć za przemówieniem Gemini, może poprosić o mówienie wolniej. I odwrotnie, gdy czas jest ograniczony, użytkownicy mogą poinstruować Gemini, aby przyspieszył swoją mowę.
System może również dostarczać narracje z określonych perspektyw. Jak stwierdził Google w swoim poście na blogu, użytkownicy mogą „poprosić Gemini, aby opowiedział o Imperium Rzymskim z perspektywy samego Juliusza Cezara i uzyskać bogatą, angażującą narrację wraz z akcentami postaci”.
Ten artykuł został zaktualizowany o 19:50 ET, aby udzielić wyjaśnień dotyczących naturalnego modelu audio i włączyć zasoby demonstracyjne z postu na blogu Google.





