Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym

Jesteś na kolejnym niekończącym się spotkaniu Zoom lub Teams. Brzęczące głosy, slajdy ledwo przykuwają twoją uwagę, a twoje oczy błyszczą, gdy ktoś recytuje kwartalne statystyki. A teraz wyobraź sobie, że zamiast zanudzać Cię arkuszami kalkulacyjnymi, sztuczna inteligencja podczas spotkania zacznie na miejscu wyświetlać wizualizacje — rzeczywiste obrazy ożywiające rozmowę, generowane w czasie rzeczywistym, gdy ludzie mówią. Brzmi futurystycznie, ale właśnie to planuje Microsoft dzięki nowemu patentowi.

Patenty Microsoftu na przetwarzanie głosu na obraz

Najnowszy pomysł Microsoftu (tak, na razie to tylko pomysł) polega na pobieraniu strumieni audio na żywo — wykładów, spotkań, wszelkich rozmów werbalnych — i na bieżąco przekształcaniu ich w obrazy. Amerykański Urząd Patentów i Znaków Towarowych właśnie podał szczegóły 10 października 2024 rpo złożeniu wniosku przez firmę Microsoft w kwietniu. System zasadniczo podsłuchiwałby Twoje rozmowy, generował transkrypcję tekstu, przepuszczał ją przez model sztucznej inteligencji i wyświetlał wyskakujące obrazy pasujące do tego, co zostało powiedziane.

Nigdy więcej „pozwól mi narysować slajd”.

Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym — Zrzut ekranu patentu (Kredyt obrazu)

Koniec nudnych spotkań? Może nie, ale będzie blisko

Większość wirtualnych spotkań jest dość nudna. I nie udawajmy, że nie spędzamy dużej części czasu poza domem.

Ale co, jeśli podczas tych spotkań nagle zaczną pojawiać się obrazy tak szybko, jak toczy się rozmowa. Ktoś wspomina o nowych koncepcjach produktów i w ciągu kilku sekund na ekranie zaczynają pojawiać się obrazy wygenerowane przez sztuczną inteligencję. Suche liczby, które ludzie cytują, nagle zamieniają się w dynamiczne wykresy, bez konieczności klikania przycisku. Co to jest? Wąskie gardło w łańcuchu dostaw w Azji Południowo-Wschodniej? Bam! Pojawi się interaktywna mapa podkreślająca obszary wymagające uwagi.

Zanim się zbytnio podekscytujesz, powiedzmy sobie jasno – jest to wciąż w fazie patentowej. A jeśli jesteś w branży wystarczająco długo, wiesz, że wiele patentów prowadzi donikąd. Zgłoszenie patentu jest jak zasianie nasionka – może wyrosnąć na coś wspaniałego, ale może też pozostać pomysłem, który nigdy nie zostanie rozwinięty.

To powiedziawszy, jeśli Microsoft się na to zdecyduje, oczywistym domem dla tej technologii będzie Zespoły Microsoftu. Udoskonalali Teams za pomocą wszelkiego rodzaju narzędzi opartych na sztucznej inteligencji, od Copilot po ulepszone funkcje wideokonferencji, więc byłby to krok, który należy wykonać.

Widzieliśmy już narzędzia do zamiany tekstu na obraz, takie jak DALL-E I W połowie podróży zadziwiać ludzi. Teraz mogliśmy zobaczyć, jak tę koncepcję zastosowano do mowy na żywo. To jakby dać głos kreatywności AI w czasie rzeczywistym.

Ale na razie czekamy.

Autor wyróżnionego obrazu: Kerem Gülen/Midjourney

Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym

Related Posts

Matka jednego z dzieci Elona Muska pozywa xAI w związku z seksualnymi deepfakesami Groka

OpenAI uruchamia samodzielny Tłumacz ChatGPT

Czas uruchomienia DeepSeek V4 i R2 pozostaje ukryty

Gemini zyskuje inteligencję osobistą w celu syntezy danych z Gmaila i Zdjęć

Amazon wymusza aktualizację członków Prime do Alexa+

Google aktualizuje Veo 3.1 o natywną generację wideo w pionie

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym

Patenty Microsoftu na przetwarzanie głosu na obraz

Koniec nudnych spotkań? Może nie, ale będzie blisko

Related Posts

Matka jednego z dzieci Elona Muska pozywa xAI w związku z seksualnymi deepfakesami Groka

OpenAI uruchamia samodzielny Tłumacz ChatGPT

Czas uruchomienia DeepSeek V4 i R2 pozostaje ukryty

Gemini zyskuje inteligencję osobistą w celu syntezy danych z Gmaila i Zdjęć

Amazon wymusza aktualizację członków Prime do Alexa+

Google aktualizuje Veo 3.1 o natywną generację wideo w pionie

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us