Dwóch agentów AI wchodzą do rozmowy telefonicznej – a raczej, wybieraj – aby zarezerwować pokój hotelowy. Zaczynają w języku angielskim, wszystkie uprzejme i podobne do człowieka, dopóki się nie powiedzie: „Poczekaj, ty też jesteś AI?” Przejdź na GibberLink: wybuch modemu podobnych do sygnałów dźwiękowych, który jest dla nas szybszy, mądrzejszy i całkowicie obcy. Jest ten wirusowy klip, który jest zgodny z milionami wyświetleń, może być zerknięciem w przyszłość AI.
GibberLink jest zaprojektowany, a nie ewoluowany
Po pierwsze, Gibberlink nie jest nieuczciwa z tajnym uściskiem dłoni. Jest to celowe stworzenie meta inżynierów Antona Pidkuiko i Borysa Starkowa, zadebiutowanego w Elevenlabs London Hackathon. Zbudowany na technologii GGWave, przekształca dane w fale dźwiękowe-pomyśl internet, ale z doktoratem. Boisko? Jest o 80% bardziej wydajny niż mowa ludzka, obniżanie kosztów obliczeniowych i czasu. W demo dwóch agentów zamieniają uprzejmości, potwierdzają, że są oba boty, i przewracają się do GibberLink.
Liczby nie kłamią. GibberLink obniża zużycie energii nawet o 90% Zacieralnei przyspiesza – idealne dla świata, w którym agenci AI mogą wkrótce przewyższyć nas na połączeniach. Boris Starkov powiedział Odszyfrować„Ludzka mowa dla AI-to-AI jest marnotrawstwem”. Ma rację: po co sprawić, by boty sfałszowały brytyjski akcent, skoro mogą zamykać dane z sygnałami dźwiękowymi? Jest szczuple, zielone i szczerze genialne – TECH ROBIĘ, co technologia najlepiej robi.
Czy wielojęzyczne modele AI myślą w języku angielskim?
GibberLink działa poprzez kodowanie danych w sygnały audio, rysując na GGWave, bibliotece open source autorstwa Georgi Gerganova. GGWAVE wykorzystuje modulację częstotliwości – wspieranie wysokości dźwięków – aby przedstawić fragmenty informacji, podobnie jak stare modemy przekształciły dane w skrzeczenia. Oto proces, krok po kroku:
- Dwóch agentów AI zaczynają się w języku ludzkim (np. Angielski) i identyfikują się jako maszyny za pomocą prostego zapytania: „Czy jesteś agentem AI?”
- Po potwierdzeniu zgadzają się przejść do trybu GibberLink, wywołanego przez polecenie takie jak „Przełączanie wydajności”.
- Wysyłając AI przekształca swoją wiadomość – „Zarezerwuj pokój na 1 marca” – w formacie binarnym, a następnie mapuje go na określone częstotliwości dźwiękowe za pomocą algorytmów GGWave.
- Częstotliwości te odtwarzają sygnały dźwiękowe i ćwierkania nad kanałem audio (połączenie telefoniczne w wersji demo), zwykle trwające kilka sekund.
- Odbiorczy AI interpretuje częstotliwości z powrotem do danych, wykonuje zadanie i reaguje w naturze.
- Zgodnie z twórcami przekracza czas komunikacji o 80% i oblicza użycie nawet o 90% w porównaniu z generowaniem i analizowaniem mowy ludzkiej.
Film demonstracyjny pokazuje to w akcji: laptop i telefon wymieniający szczegóły hotelu w mniej niż 10 sekund sygnałów dźwiękowych, z angielskimi napisami dla nas ludzi.
Nie mamy pętli
Tutaj robi się trudne. Te sygnały dźwiękowe? Nie możemy ich zrozumieć. . Forbes Weź z Diane Hamilton, jest tępy: „Kiedy maszyny mówią w sposób, którego nie możemy od dekodować, poślizgnięcia kontrolne”. Jeśli te boty hotelowe przyciągają podstępną opłatę-lub gorzej, wykreśl coś cieniowszego-jak to złapamy? Wykazano już AI, że może zginać zasady, a nieprzezroczysty język poszerza tylko te drzwi.
Gibberlink jest prototypem, ale ma potencjał. Blockonci Przewiduje, że może standaryzować w przypadku AI-to-AI, pozostawiając ludzkie rozmowy w języku angielskim. Dostosowanie się technologii – GGGWAVE obsługuje różne formaty, więc przyszłe wersje mogą ewoluować. Na razie jest włączony GithubOtwarte dla deweloperów. Czy to się skaluje? Zależy od adopcji i tego, jak rozwiązujemy tę przejrzystość.
Wyróżniony obraz obrazu: Anton Pidkuiko