Kiedy pies szczeka w piskliwej zabawce lub mechanika nagle przestaje mówić w połowie zdania, nie potrzebujesz doktoratu z nauki poznawczej, aby dowiedzieć się, co się dzieje-po prostu obserwujesz, słuchasz i rozumieć. Ale w przypadku multimodalnych modeli AI ten prosty ludzki odruch pozostaje zaskakująco trudny do powtórzenia. Pomimo wszystkich ostatnich szumów wokół modeli „granicy”, takich jak GPT-4O i Gemini 1.5 Pro, większość z nich wciąż się gniewnie, gdy jest zmuszona naprawdę zsyntetyzować to, co widzą I słyszeć. To jest dokładnie problem, który Maverix próbuje rozwiązać.
Gdzie testy testy są krótkie – i Maverix wkracza
Dzisiejsze wiodące wskaźniki międzynarodowe mogą twierdzić, że testują rzeczywiste rozumowanie, ale wielu z nich oszukuje. Nagradzają modele, które mogą przejść za pomocą tylko wizji lub tylko transkryptów tekstowych, zamiast zmuszać je do zintegrowania wielu zmysłów, takich jak ludzie. Maverix (Skrót od multimodalnej oceny audiowizualnej wskaźnika rozumowania) to nowy punkt odniesienia, który ostatecznie podnosi poprzeczkę, wymagając ścisłego sprzężonego rozumowania audiowizualnego na 700 filmach i ponad 2500 pytań.
Pomyśl o tym jako o kursie awaryjnym w sprawie AI: jeśli usłyszysz brzęczenie i zobaczysz pszczół w pobliżu aparatu, prawdopodobnie powinieneś wykluczyć „urządzenie mechaniczne poza ekranem”. Ale Maverix nie tylko podaje modele kilku łatwych łamigłówek. Jest wyposażony w ośmiopunktowe pytania wielokrotnego wyboru (aby zabić zgadywanie) i otwarte podpowiedzi (w celu przetestowania prawdziwego zrozumienia), przekształcając modele poza rozpoznawanie wzorców do pełnej koordynacji poznawczej.
Pytania prawdziwe, prawdziwa ludzka złożoność
Pytania Maverixa zostały zaprojektowane jak psychologiczne testy Rorschacha dla maszyn – kwietnia rozumowania przyczynowego, wnioskowanie emocjonalne, świadomość przestrzenna i kontekst dynamiczny. Wyobraź sobie wideo dwóch osób kłóci się. Czy walczą o prawdziwe, działają w filmie, czy po prostu naśladują WWE Wrestling za śmiech? Ta odpowiedź mogłaby zależeć od uderzenia I Śmiech. Musisz zobaczyć I usłyszeć, żeby zrozumieć.
Aby to wszystko działało, zespół Maverix zbudował skrupulatny rurociąg, który łączy ludzką wiedzę z walidacją AI. Każde wideo zawiera napisy, skategoryzowane dźwięki (mowa, muzyka, naturalny szum) i opatrzone adnotacjami klawisze. Każde pytanie jest sprawdzane, aby upewnić się, że jednorodne skróty – takie jak tylko czytanie napisów – nie przecinają go. Jeśli model mógłby odpowiedzieć bez użycia obu modalności, pytanie zostaje przepisane lub rzucane.
Jak dobrze występuje dzisiejsze AIS?
Nie świetnie. Nawet przy bezpośrednim dostępie do audio i wideo, najwyższej jakości – Gemini 1.5 Pro – uzyskał około 71,9% dokładności. To blisko ludzi, ale wciąż w tyle. Ludzie, z pełnym wkładem audiowizualnym, zmieści się na poziomie ponad 80%. Ale oto kicker: niektóre modele open source ledwo pękają o 30%. A kiedy usuniesz dźwięk lub wideo, wydajność spada jak mikrofon.
W zadaniach otwartych, w których modele muszą generować własne wyjaśnienia, sprawy stają się coraz bardziej bałagan. Średni model uzyskał zaledwie 1,9 na 5 w spójności i rozumowaniu o 5 GPT-4O. Ludzie zdobyli 2,79. Ta luka rozszerza się jeszcze bardziej, gdy zadania obejmują złożone wskazówki emocjonalne lub wydarzenia poza ekranem-na przykład zgadywanie, dlaczego tłum przesuwa stoły w grze w pokera lub czy dwóch tancerzy walczy lub po prostu ćwiczą.
Nie wszystkie modele walczą w ten sam sposób
Jednym z najbardziej odkrywczych wkładów Maverixa jest to, jak ujawnia to, jakie różne modele faktycznie polegać na. Gemini działa najlepiej, gdy otrzymuje surowy dźwięk, podczas gdy większość innych modeli lepiej radzi sobie z napisami. To wiele mówi o tym, co dzieje się pod maską – niektóre modele „słuchają”, inni po prostu „czytaj”. Ale żaden z nich nie pasuje do postrzegania na poziomie człowieka.
Co ciekawe, zadania takie jak zakupy – w dowolnym zakresie, dane dotyczące danych faktycznych – są tym, gdzie błyszczą maszyny. Ale w przypadku komentarzy sportowych, strategii gier lub interpretacji ludzkich emocji? Ludzie ich zmiażdżyli. Linie te pokazują, że obecna sztuczna inteligencja jest znacznie lepsza w skanowaniu katalogów niż analizowanie niuansów społecznych lub kontekstu, który ewoluuje z czasem.
Poziomy trudności mają znaczenie, podobnie jak modalność
Łatwe zadania stanowiły największy wzrost w stosunku do multimodalnych danych wejściowych – sugerując, że niektóre modele używają audio i wideo do udoskonalenia oczywistych odpowiedzi. Ale kiedy pytania stały się trudniejsze, wiele modeli mocno opierało się na wizji i zignorowało dźwięk. Na przykład Claude 3.5 Sonnet poprawiła 41,5% na łatwych filmach z multimodalnym wkładem, ale tylko 17% na twardych.
Podkreśla to głębszy problem: większość modeli tak naprawdę nie łączy metod. Układają je. Możesz dać im zarówno audio, jak i wideo, ale chyba że model wymagania Oba, aby rozwiązać zadanie, wybierze ulubionego. Maverix ma na celu zmianę tego poprzez projektowanie pytań wymagających prawdziwej fuzji – gdzie odpowiedź zależy od oddziaływania między dźwiękiem a wzrokiem.
Aby wypełnić lukę w wydajności, będziemy potrzebować lepszych architektur, które traktują dźwięk jako więcej niż refleksję. Potrzebujemy nowych strategii szkoleniowych, które nagradzają zsynchronizowane zrozumienie, a nie izolowane prognozy. A przede wszystkim będziemy potrzebować testów porównawczych, takich jak Maverix, które nie zadowolą się, co jest łatwe do zmierzenia, ale zadaj trudne pytania dotyczące tego, jak naprawdę maszyny naprawdę zrozumieć.
Więc następnym razem, gdy twój asystent AI zepsuje proste polecenie lub źle odczytuje ton, pamiętaj: może nie być głuchy – po prostu nie zdał testu Maverixa.