Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym

byKerem Gülen
15 października 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Jesteś na kolejnym niekończącym się spotkaniu Zoom lub Teams. Brzęczące głosy, slajdy ledwo przykuwają twoją uwagę, a twoje oczy błyszczą, gdy ktoś recytuje kwartalne statystyki. A teraz wyobraź sobie, że zamiast zanudzać Cię arkuszami kalkulacyjnymi, sztuczna inteligencja podczas spotkania zacznie na miejscu wyświetlać wizualizacje — rzeczywiste obrazy ożywiające rozmowę, generowane w czasie rzeczywistym, gdy ludzie mówią. Brzmi futurystycznie, ale właśnie to planuje Microsoft dzięki nowemu patentowi.

Patenty Microsoftu na przetwarzanie głosu na obraz

Najnowszy pomysł Microsoftu (tak, na razie to tylko pomysł) polega na pobieraniu strumieni audio na żywo — wykładów, spotkań, wszelkich rozmów werbalnych — i na bieżąco przekształcaniu ich w obrazy. Amerykański Urząd Patentów i Znaków Towarowych właśnie podał szczegóły 10 października 2024 rpo złożeniu wniosku przez firmę Microsoft w kwietniu. System zasadniczo podsłuchiwałby Twoje rozmowy, generował transkrypcję tekstu, przepuszczał ją przez model sztucznej inteligencji i wyświetlał wyskakujące obrazy pasujące do tego, co zostało powiedziane.

Nigdy więcej „pozwól mi narysować slajd”.

Firma Microsoft opatentowała generator obrazu przetwarzający dźwięk w czasie rzeczywistym
Zrzut ekranu patentu (Kredyt obrazu)

Koniec nudnych spotkań? Może nie, ale będzie blisko

Większość wirtualnych spotkań jest dość nudna. I nie udawajmy, że nie spędzamy dużej części czasu poza domem.

Ale co, jeśli podczas tych spotkań nagle zaczną pojawiać się obrazy tak szybko, jak toczy się rozmowa. Ktoś wspomina o nowych koncepcjach produktów i w ciągu kilku sekund na ekranie zaczynają pojawiać się obrazy wygenerowane przez sztuczną inteligencję. Suche liczby, które ludzie cytują, nagle zamieniają się w dynamiczne wykresy, bez konieczności klikania przycisku. Co to jest? Wąskie gardło w łańcuchu dostaw w Azji Południowo-Wschodniej? Bam! Pojawi się interaktywna mapa podkreślająca obszary wymagające uwagi.

Zanim się zbytnio podekscytujesz, powiedzmy sobie jasno – jest to wciąż w fazie patentowej. A jeśli jesteś w branży wystarczająco długo, wiesz, że wiele patentów prowadzi donikąd. Zgłoszenie patentu jest jak zasianie nasionka – może wyrosnąć na coś wspaniałego, ale może też pozostać pomysłem, który nigdy nie zostanie rozwinięty.

To powiedziawszy, jeśli Microsoft się na to zdecyduje, oczywistym domem dla tej technologii będzie Zespoły Microsoftu. Udoskonalali Teams za pomocą wszelkiego rodzaju narzędzi opartych na sztucznej inteligencji, od Copilot po ulepszone funkcje wideokonferencji, więc byłby to krok, który należy wykonać.

Widzieliśmy już narzędzia do zamiany tekstu na obraz, takie jak DALL-E I W połowie podróży zadziwiać ludzi. Teraz mogliśmy zobaczyć, jak tę koncepcję zastosowano do mowy na żywo. To jakby dać głos kreatywności AI w czasie rzeczywistym.

Ale na razie czekamy.


Autor wyróżnionego obrazu: Kerem Gülen/Midjourney

Tags: MicrosoftuSztuczna inteligencjaWyróżniony

Related Posts

Matka jednego z dzieci Elona Muska pozywa xAI w związku z seksualnymi deepfakesami Groka

Matka jednego z dzieci Elona Muska pozywa xAI w związku z seksualnymi deepfakesami Groka

16 stycznia 2026
OpenAI uruchamia samodzielny Tłumacz ChatGPT

OpenAI uruchamia samodzielny Tłumacz ChatGPT

15 stycznia 2026
Czas uruchomienia DeepSeek V4 i R2 pozostaje ukryty

Czas uruchomienia DeepSeek V4 i R2 pozostaje ukryty

15 stycznia 2026
Gemini zyskuje inteligencję osobistą w celu syntezy danych z Gmaila i Zdjęć

Gemini zyskuje inteligencję osobistą w celu syntezy danych z Gmaila i Zdjęć

15 stycznia 2026
Amazon wymusza aktualizację członków Prime do Alexa+

Amazon wymusza aktualizację członków Prime do Alexa+

14 stycznia 2026
Google aktualizuje Veo 3.1 o natywną generację wideo w pionie

Google aktualizuje Veo 3.1 o natywną generację wideo w pionie

14 stycznia 2026

Recent Posts

  • Verizon zarobi 20 dolarów: jak już dziś ubiegać się o kredyt za przestój
  • Trump formalizuje umowę eksportową chipów AI z 25% podatkiem od sprzedaży w Chinach
  • Anthropic wyznacza weterankę Microsoft Irinę Ghose na kierownictwo ekspansji w Indiach
  • W ramach dużej aktualizacji Bluesky wprowadza odznakę i tagi Live Now
  • Netflix zabezpiecza globalną umowę o wartości 7 miliardów dolarów na serię filmów Sony Pictures

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.