Jesteś na kolejnym niekończącym się spotkaniu Zoom lub Teams. Brzęczące głosy, slajdy ledwo przykuwają twoją uwagę, a twoje oczy błyszczą, gdy ktoś recytuje kwartalne statystyki. A teraz wyobraź sobie, że zamiast zanudzać Cię arkuszami kalkulacyjnymi, sztuczna inteligencja podczas spotkania zacznie na miejscu wyświetlać wizualizacje — rzeczywiste obrazy ożywiające rozmowę, generowane w czasie rzeczywistym, gdy ludzie mówią. Brzmi futurystycznie, ale właśnie to planuje Microsoft dzięki nowemu patentowi.
Patenty Microsoftu na przetwarzanie głosu na obraz
Najnowszy pomysł Microsoftu (tak, na razie to tylko pomysł) polega na pobieraniu strumieni audio na żywo — wykładów, spotkań, wszelkich rozmów werbalnych — i na bieżąco przekształcaniu ich w obrazy. Amerykański Urząd Patentów i Znaków Towarowych właśnie podał szczegóły 10 października 2024 rpo złożeniu wniosku przez firmę Microsoft w kwietniu. System zasadniczo podsłuchiwałby Twoje rozmowy, generował transkrypcję tekstu, przepuszczał ją przez model sztucznej inteligencji i wyświetlał wyskakujące obrazy pasujące do tego, co zostało powiedziane.
Nigdy więcej „pozwól mi narysować slajd”.

Koniec nudnych spotkań? Może nie, ale będzie blisko
Większość wirtualnych spotkań jest dość nudna. I nie udawajmy, że nie spędzamy dużej części czasu poza domem.
Ale co, jeśli podczas tych spotkań nagle zaczną pojawiać się obrazy tak szybko, jak toczy się rozmowa. Ktoś wspomina o nowych koncepcjach produktów i w ciągu kilku sekund na ekranie zaczynają pojawiać się obrazy wygenerowane przez sztuczną inteligencję. Suche liczby, które ludzie cytują, nagle zamieniają się w dynamiczne wykresy, bez konieczności klikania przycisku. Co to jest? Wąskie gardło w łańcuchu dostaw w Azji Południowo-Wschodniej? Bam! Pojawi się interaktywna mapa podkreślająca obszary wymagające uwagi.
Zanim się zbytnio podekscytujesz, powiedzmy sobie jasno – jest to wciąż w fazie patentowej. A jeśli jesteś w branży wystarczająco długo, wiesz, że wiele patentów prowadzi donikąd. Zgłoszenie patentu jest jak zasianie nasionka – może wyrosnąć na coś wspaniałego, ale może też pozostać pomysłem, który nigdy nie zostanie rozwinięty.
To powiedziawszy, jeśli Microsoft się na to zdecyduje, oczywistym domem dla tej technologii będzie Zespoły Microsoftu. Udoskonalali Teams za pomocą wszelkiego rodzaju narzędzi opartych na sztucznej inteligencji, od Copilot po ulepszone funkcje wideokonferencji, więc byłby to krok, który należy wykonać.
Widzieliśmy już narzędzia do zamiany tekstu na obraz, takie jak DALL-E I W połowie podróży zadziwiać ludzi. Teraz mogliśmy zobaczyć, jak tę koncepcję zastosowano do mowy na żywo. To jakby dać głos kreatywności AI w czasie rzeczywistym.
Ale na razie czekamy.
Autor wyróżnionego obrazu: Kerem Gülen/Midjourney