Niedawne badania przeprowadzone przez Apple sugerują, że modele, które uzyskały wysoki wynik w zestawie danych GSM8K, mogą nie być tak inteligentne, jak się wydaje.
Modele wielkojęzykowe (LLM) są powszechnie chwalone za pozornie imponujące zdolności rozumowania. Modele takich firm jak OpenAI, Google i Meta są często przedstawiane jako potężne narzędzia zdolne do rozwiązywania złożonych problemów, a testy takie jak zbiór danych GSM8K stanowią popularny punkt odniesienia do pomiaru umiejętności rozumowania.
Jednak badania Apple mają zmienić tak zwany system godny zaufania.
Co to jest zbiór danych GSM8K?
Zbiór danych GSM8K (Grade School Math 8K) jest punktem odniesienia używanym do oceny umiejętności rozwiązywania problemów i rozumowania dużych modeli językowych (LLM). Zawiera ponad 8000 zadań matematycznych na poziomie szkoły podstawowej, które zazwyczaj wymagają arytmetyki, logicznego rozumowania i umiejętności wieloetapowego rozwiązywania problemów, aby znaleźć poprawną odpowiedź.
Zbiór danych GSM8K składa się z:
- Matematyka na poziomie szkoły podstawowej: Zadania mają na celu naśladowanie rodzaju pytań, z jakimi mogą się spotkać uczniowie klas 1–8, takich jak podstawowa arytmetyka, geometria, algebra i łamigłówki logiczne.
- Problemy ze słowami: Każde pytanie jest przedstawione w formie problemu słownego, co wymaga od modelu interpretacji problemu, zidentyfikowania odpowiednich liczb i operacji oraz rozwiązania równania.
- Wykorzystywany do oceny LLM: Zbiór danych jest często używany jako test sprawdzający, jak dobrze modele językowe, takie jak GPT OpenAI, modele Google lub LLaMA Meta, radzą sobie z zadaniami rozumowania wykraczającymi poza zwykłe przewidywanie tekstu.
- Rozumowanie wieloetapowe: Rozwiązanie problemów wymaga wielu kroków, co testuje zdolność modelu do śledzenia złożonych sekwencji rozumowania, a nie po prostu tworzenia odpowiedzi w jednym kroku.
Zbiór danych GSM8K stał się popularnym narzędziem do oceny, czy LLM potrafią logicznie rozumować i rozwiązywać rzeczywiste problemy. Istnieją jednak obawy, że wiele modeli sztucznej inteligencji radzi sobie dobrze na tym zbiorze danych dzięki dopasowywaniu wzorców, a nie prawdziwemu rozumowaniu, ponieważ mogły one zostać narażone na podobne problemy podczas szkolenia.
Ograniczenia zbioru danych GSM8K dotyczące LLM
Badacze Apple argumentują, że ten sukces może wynikać bardziej z wyrafinowanego dopasowywania wzorców niż z prawdziwego logicznego rozumowania. Ponieważ zbiór danych GSM8K jest tak powszechnie używany, istnieje ryzyko zanieczyszczenia danych — co oznacza, że wiele LLM mogło już doświadczyć tych problemów podczas szkolenia, co zawyżało ich pozorną inteligencję.
Aby rozwiązać ten problem, firma Apple opracowała nowy test porównawczy o nazwie GSM-symboliczny. Ten test zachowuje podstawowe elementy rozumowania zbioru danych GSM8K, ale wprowadza zmiany, takie jak różne nazwy, numery i złożoność, wraz z nieistotnymi informacjami.
Wyniki? Przetestowano każdy LLM, w tym modele takie jak OpenAI GPT-4 i Meta Lama 3zaobserwowałem znaczny spadek wydajności w obliczu tego nowego wyzwania. To sugeruje, że LLM mają trudności z prawdziwym rozumowaniem, gdy zmienne ulegają zmianieco dodatkowo kwestionuje ich rzeczywiste umiejętności rozwiązywania problemów.
Dlaczego LLM mają trudności?
Badanie przeprowadzone przez Apple rzuca światło na krytyczną wadę programów LLM: Są doskonałe w wykrywaniu wzorców w danych szkoleniowych, ale brakuje im prawdziwego logicznego rozumowania. Na przykład, gdy problemy matematyczne obejmowały nieistotne szczegóły, takie jak wielkość kiwi w scenariuszu zbierania owoców, wiele LLM odjęło te nieistotne szczegóły od równania, wykazując brak rozeznania, które informacje są niezbędne do rozwiązania problemu.
W testach z Zbiór danych GSM8Ksystemy LLM, takie jak modele OpenAI, działały lepiej niż ich odpowiedniki typu open source, ale spadek dokładności po dodaniu nieistotnych informacji sugeruje, że systemy te są dalekie od osiągnięcia prawdziwej inteligencji. Ma to głębokie implikacje dla przyszłego rozwoju sztucznej inteligencji, pokazując, że chociaż LLM mogą naśladować inteligencję, nadal mają trudności z prawdziwym zrozumieniem kontekstu.
Inteligentniejsza sztuczna inteligencja czy po prostu lepsza w sprawianiu wrażenia inteligentnej?
Badania Apple podkreślają ograniczenia polegania na wzorcach takich jak zbiór danych GSM8K w celu oceny inteligencji sztucznej inteligencji. Chociaż testy te mogą mierzyć rozpoznawanie wzorców, nie zawsze wychwytują niuanse prawdziwego logicznego rozumowania. Wprowadzenie testu porównawczego GSM-Symbolic zapewnia bardziej rygorystyczny test zdolności sztucznej inteligencji do radzenia sobie z nieznanymi zmiennymi i nieistotnymi informacjami – czyli umiejętności niezbędnych do rozwiązywania problemów w świecie rzeczywistym.
Sam Altman, dyrektor generalny OpenAI, nawet przyznał się do tych wyzwań, nazywając obecne LLM „niesamowicie głupi” pomimo imponującego wyglądu zewnętrznego, jak stwierdzono w ekskluzywnym wywiadzie Przegląd technologii MIT. Prawdziwym testem dla przyszłych LLM będzie ich zdolność do wyjścia poza rozpoznawanie wzorców i rozwinięcie solidniejszych umiejętności rozwiązywania problemów.
Wyniki badania Apple dają otrzeźwiające spojrzenie na obecny stan LLM. Podczas gdy modele szkolone na zbiorach danych, takich jak GSM8K mogą dobrze sobie radzić w kontrolowanych środowiskach, ich zdolności rozumowania słabną, gdy są testowane na bardziej złożonych, rzeczywistych problemach. Podkreśla to znaczenie dalszych badań i rozwoju, aby zapewnić, że modele sztucznej inteligencji wykroczą poza inteligencję na poziomie powierzchniowym i rozwiną prawdziwe umiejętności logicznego rozumowania.
Na razieniezwykle ważne jest, aby ostudzić emocje związane ze sztuczną inteligencją zdrowym sceptycyzmem i skupić się na bezpieczniejszych, inteligentniejszych systemach sztucznej inteligencji, które radzą sobie nie tylko z rozpoznawaniem wzorców.
Kredyty obrazowe: DC Studio/Freepik