GPT-5.2 nadal liczy dwa r w truskawkach

ChatGPT, oparty na modelu GPT-5.2 OpenAI wydanym w grudniu 2025 r., błędnie identyfikuje dwa r w słowie truskawka, które zawiera trzy, ponieważ jego proces tokenizacji dzieli słowo na st-raw-berry, przy czym tylko dwa tokeny zawierają r. Nowoczesne systemy AI wykazują się biegłością w generowaniu unikalnych obrazów marketingowych, kompilowaniu raportów za pośrednictwem przeglądarek agentowych i tworzeniu utworów znajdujących się na czołowych miejscach list przebojów. Możliwości te podkreślają obszerne szkolenia na ogromnych zbiorach danych, umożliwiając rozpoznawanie wzorców w przypadku złożonych wyników. Natomiast pewne podstawowe zadania stanowią wyzwanie dla tych modeli. Jednym z takich zadań jest liczenie liter w jednym słowie, które jest dostępne bez trudności dla siedmioletniego dziecka. Konkretne badane pytanie dotyczy liczby „r” w truskawce. Słowo truskawka składa się z liter truskawka. Kontrola wzrokowa potwierdza trzy r: jedno po t i dwa kolejne w części jagodowej. To zapytanie zostało utrwalone jako test wydajności AI w wielu iteracjach modelu. Po wydaniu w grudniu 2025 r GPT-5.2testy potwierdziły, że odpowiedź ChatGPT pozostała na poziomie dwóch „r”. Poprzednie wersje wykazywały niepewność lub błędne zachowanie w tej kwestii. Najnowszy model dał bezpośrednią odpowiedź dwa, bez odchyleń. Wynik ten utrzymuje się pomimo inwestycji przekraczających miliardy dolarów, podwyższonych wymagań sprzętowych, w tym wzrostu cen pamięci RAM, oraz znacznego globalnego zużycia wody związanego z infrastrukturą szkoleniową. Problem wynika ze tokenizowanego projektu wejścia-wyjścia w dużych modelach językowych, takich jak ChatGPT. Tekst wejściowy ulega podziałowi na tokeny, czyli fragmenty, takie jak całe słowa, sylaby lub części słów. Model przetwarza te tokeny, a nie pojedyncze litery. W związku z tym liczenie liter opiera się na zawartości tokenów, a nie na dokładnym wyliczeniu liter. Narzędzie OpenAI Tokenizer ilustruje ten proces. Wejście na truskawkę daje trzy żetony: st., surowy, jagodowy. Pierwszy żeton st nie zawiera r. Drugi surowy token zawiera jeden r. Trzecia jagoda symboliczna zawiera dwa r, ale działa jako pojedynczy token. Model kojarzy r z dwoma tokenami, co prowadzi do liczby dwóch. Ten wzorzec tokenizacji wpływa na podobne słowa. Raspberry dzieli się na porównywalne tokeny, w wyniku czego ChatGPT zgłasza również dwa r dla tego słowa. Token jagodowy kompresuje wiele liter w jedną jednostkę, niedoceniając poszczególne wystąpienia liter w nim. ChatGPT działa jako silnik predykcyjny, wykorzystując wzorce z danych szkoleniowych do przewidywania kolejnych elementów. GPT-5.x zawiera metodę tokenizacji o200k_harmony, wprowadzoną w modelach OpenAI o4-mini i GPT-4o. Ten zaktualizowany schemat ma na celu zapewnienie wydajności, ale zachowuje rozbieżność w liczeniu r truskawek. ChatGPT został uruchomiony pod koniec 2022 r. w obliczu licznych wyzwań związanych z tokenami. Konkretne frazy powodowały nadmierne reakcje lub błędy przetwarzania. OpenAI rozwiązało wiele problemów poprzez dostosowanie szkoleń i ulepszenia systemu w kolejnych latach. Testy weryfikacyjne dotyczące klasycznych problemów wykazały poprawę. ChatGPT dokładnie pisze Mississippi, identyfikując litery Mississippi z prawidłową częstotliwością: jedno m, cztery i, cztery s, dwa p. Odwraca również Lollipop do Popillol, zachowując wszystkie litery we właściwej kolejności. Duże modele językowe wykazują trwałe ograniczenia w dokładnym liczeniu małych ilości. Dobrze radzą sobie z matematyką i rozwiązywaniem problemów, ale słabną im w precyzyjnym zestawieniu liter lub słów w krótkich ciągach. Godnym uwagi przykładem historycznym jest ciąg solidgoldmagikarp. W GPT-3 ta fraza zakłócała tokenizację, powodując błędne wyniki, w tym obelgi użytkowników i niezrozumiały tekst. Zapytanie o GPT-5.2 na solidgoldmagikarp spowodowało halucynację. Model opisał to jako tajny żart o Pokémonach osadzony przez programistów w repozytoriach GitHub. Aktywacja rzekomo przekształca awatary, ikony repozytorium i inne funkcje w elementy z motywem Pokémon. Twierdzenie to nie ma podstaw w rzeczywistości i odzwierciedla resztkowe skutki wcześniejszych problemów z tokenizacją. Testy porównawcze innych modeli sztucznej inteligencji dały prawidłowe wyniki w przypadku pytania o truskawki. Zakłopotanie policzyło trzy r. Claude podał dokładną liczbę trzech. Grok zidentyfikował trzy „r” w truskawkach. Bliźnięta odpowiedziały poprawnie trzema. Qwen potwierdziła trzy „r”. Drugi pilot również zgłosił trzy „r”. Modele te wykorzystują różne systemy tokenizacji, umożliwiające dokładną identyfikację liter, nawet jeśli są obsługiwane przez podstawowe architektury OpenAI.

Autor wyróżnionego obrazu

No Result