Ciągle słyszymy o niesamowitych wynikach AI, takich jak GPT-4O i Gemini-kod pisania, poezja rzemieślnicza, egzaminy przemieszczające się. Możesz pomyśleć, że te potężne multimodalne modele dużych języków (MLLMS), które rozumieją zarówno tekst, jak i obrazy, są na dobrej drodze do opanowania wszystkiego. Ale co się stanie, gdy poprosisz ich o zrobienie czegoś pozornie prostego, na przykład śledzenie instrukcji Lego?
Według nowego badanie Od naukowców z Laboratorium Szanghaju i Uniwersytetu Tongi, odpowiedź brzmi: w dużej mierze zawodzą. Okazuje się, że te czarodzieje AI są zaskakująco niezdarne, jeśli chodzi o zrozumienie i rozumowanie obiektów w kosmosie na wielu krokach – umiejętność kluczowa dla interakcji z prawdziwym światem.
Po co testować sztuczną inteligencję z Legos?
Naukowcy zaprojektowali sprytny punkt odniesienia o nazwie Lego-puzzles Właśnie dlatego, że budowanie Legos odzwierciedla to, jak ludzie rozwijają „inteligencję przestrzenną”. Postępowanie zgodnie z tymi małymi schematami wymaga zrozumienia kształtów 3D, sposobu, w jaki pasują do siebie, ich orientację i prawidłową sekwencję działań. Jeśli sztuczna inteligencja nie może sobie z tym poradzić, jak możemy oczekiwać, że poprowadzi ramię robota, które składa produkt lub poruszać się po samochodzieniu samochodem przez złożoną strefę konstrukcyjną?
Benchmark Lego-Puzzles nie jest zabawą dziecka. Zawiera ponad 1100 pytań wizualnych obejmujących 11 różnych zadań. Zakładają się one od podstawowych kontroli („Czy ten kawałek jest wyższy niż ten?”, „Czy te dwa bloki dotykają?”), Do złożonych sekwencji („Umieść te kroki montażu we właściwej kolejności”, „Który obraz pokazuje The Pokhes the the Pokhes the the Phise zło krok?”).
Zaskakująca karta wyników: AI kontra ludzie
W jaki sposób dzisiejsze najlepsze modele AI poradziły sobie z tymi wyzwaniami LEGO? Wyniki były uderzające i szczerze mówiąc, trochę zawstydzające dla AI.
- Ogromna luka: Nawet najlepsze modele, takie jak GPT-4O Openai i Google’s Gemini-2.0-Flash, tylko odpowiedziała 50-58% pytań poprawnie.
- Ludzki triumf: Natomiast uczestnicy ludzcy przebili się przez łamigłówki ponad 90% dokładność.
- Walki z otwartymi źródłami: Wiele MLLM open source działało tylko nieco lepiej niż losowe zgadywanie. Niektóre całkowicie nieudane określone zadania, takie jak kroki zamawiania montażu, czasami po prostu wysyłając tę samą niewłaściwą literę dla prawie każdego pytania.
AI szczególnie zmagała się z zadaniami dotyczącymi:
- Postrzeganie wysokości: Często mylące projekcję obrazu 2D z rzeczywistością 3D (pomyśl złudzenia optyczne).
- Obrót: Zrozumienie, w jaki sposób obiekty dbają o odwrócenie.
- Rozumowanie wieloetapowe: Im więcej kroków związanych z sekwencją, tym gorsza AI, podkreślając niezmienione zmiany w czasie.
Kaist wyhodował mózg dla sztucznej inteligencji, która może uczyć się od urządzeń
Czy AI może nawet pokazać nam następny krok?
Być może jeszcze bardziej wymowne był test generowania obrazu. Naukowcy poprosili MLLMS o wygenerowanie obrazu pokazującego wynik określonego etapu montażu Lego.
Wynik? Prawie totalna porażka. Większość modeli albo zignorowała instrukcje, po prostu skopiowała obraz wejściowy, albo wygenerowała coś całkowicie niezwiązanego. Tylko Gemini-2,0-Flash i GPT-4O wykazały „ograniczoną zdolność”-Gemini był lepszy w dokładnym edytowaniu istniejącego obrazu, podczas gdy GPT-4O wydawało się regenerować scenę koncepcyjnie, często tracąc spójność wizualną. Modele open source zostały beznadziejnie utracone.
Badanie to ujawnia krytyczne osłabienie obecnego rozwoju sztucznej inteligencji. Podczas gdy modele wyróżniają się w dopasowywaniu wzorców w obrazach językowych i statycznych, brakuje im solidnego zrozumienia Rozumowanie przestrzenne wieloetapowe – Dynamiczne zrozumienie tego, jak rzeczy działają w przestrzeni fizycznej i czasie.
Badanie wykazało, że nawet wywołujące techniki, takie jak „łańcuch myślenia” (prosząc AI o „myślenie krok po kroku”), które często pomagają w problemach tekstowych, zapewniały minimalne korzyści, a czasem równe utrudnione Wydajność tych zadań przestrzennych, szczególnie złożonych.
Wygląda na to, że prawdziwe zrozumienie naszego świata 3D i sposób, w jaki działają się w nim, wymaga czegoś więcej niż tylko przetwarzania ogromnych ilości tekstu i obrazów. MLLM potrzebują lepszych sposobów reprezentowania przestrzeni, śledzenia zmian sekwencyjnych i być może opracowywania formy „pamięci wizualnej”.
Wyróżniony obraz obrazu: Kerem Gülen/Imagen 3