Nowe badanie odkrywa że metodologie oceny systemów sztucznej inteligencji często zawyżają wydajność i brakuje im rygoru naukowego, co rodzi pytania dotyczące wielu wyników testów porównawczych. Naukowcy z Oxford Internet Institute we współpracy z ponad trzydzieści instytucjizbadany 445 wiodących testów AIzwane wzorcami. Te testy porównawcze mierzą wydajność modelu AI w różnych obszarach tematycznych. Twórcy sztucznej inteligencji wykorzystują te testy porównawcze do oceny możliwości modeli i promowania postępu technicznego. Twierdzenia dotyczące wydajności inżynierii oprogramowania i zdolności do abstrakcyjnego rozumowania odwołują się do tych ocen. Z opublikowanego we wtorek artykułu wynika, że te podstawowe testy mogą być zawodne. Badanie wykazało, że wiele czołowych benchmarków nie definiuje celów testowania, ponownie wykorzystuje dane i metody z istniejących benchmarków i rzadko stosuje wiarygodne metody statystyczne do porównywania wyników modeli. Adam Mahdi, starszy pracownik naukowy w Oxford Internet Institute i główny autor, stwierdził, że te standardy mogą być „niepokojąco wprowadzające w błąd”. Mahdi powiedział NBC News: „Kiedy prosimy modele sztucznej inteligencji o wykonanie określonych zadań, często w rzeczywistości mierzymy zupełnie inne koncepcje lub konstrukcje, niż to, co chcemy zmierzyć”. Andrew Bean, inny główny autor, zgodził się, że „nawet renomowanym benchmarkom zbyt często ufa się ślepo i zasługują one na większą kontrolę”. Fasola też powiedziała Wiadomości NBC„Naprawdę należy podchodzić do tego z przymrużeniem oka, gdy słyszy się takie rzeczy, jak «modelka osiągnęła inteligencję na poziomie doktoratu». Nie jesteśmy pewni, czy pomiary te są wykonywane szczególnie dobrze.” Niektóre analizowane testy porównawcze oceniają konkretne umiejętności, takie jak znajomość języka rosyjskiego lub arabskiego. Inne mierzą ogólne zdolności, takie jak rozumowanie przestrzenne i ciągłe uczenie się. Autorzy skupiali się głównie na „wiarygodności konstrukcji” benchmarku, który kwestionuje, czy dokładnie testuje zjawisko w świecie rzeczywistym, które ma mierzyć. Na przykład jeden z punktów odniesienia poddany przeglądowi w badaniu mierzy wydajność modelu dziewięć różnych zadańw tym odpowiadanie na pytania typu „tak” lub „nie” przy użyciu informacji z rosyjskojęzycznej Wikipedii, zamiast niekończącej się serii pytań sprawdzających znajomość języka rosyjskiego. Około połowa badanych benchmarków nie definiują jasno pojęć, które mają mierzyć. Rodzi to wątpliwości co do ich zdolności do dostarczania przydatnych informacji na temat testowanych modeli sztucznej inteligencji. W badaniu zwrócono uwagę na Grade School Math 8K (GSM8K), powszechny punkt odniesienia AI w przypadku podstawowych pytań matematycznych. Często przytacza się tabele wyników dla GSM8K, aby pokazać silne rozumowanie matematyczne modeli AI. W dokumentacji testu porównawczego stwierdza się, że jest on „przydatny do badania nieformalnej zdolności rozumowania dużych modeli językowych”. Mahdi argumentował jednak, że prawidłowe odpowiedzi w testach porównawczych, takich jak GSM8K, niekoniecznie wskazują na faktyczne rozumowanie matematyczne. Wyjaśnił: „Kiedy pytasz pierwszoklasistę, ile równa się dwa plus pięć, a on odpowiada, że siedem, tak, to jest poprawna odpowiedź. Ale czy można z tego wyciągnąć wniosek, że piątoklasista opanował rozumowanie matematyczne lub arytmetyczne dzięki samej umiejętności dodawania liczb? Być może, ale myślę, że odpowiedź jest bardzo prawdopodobna nie. Bean przyznał, że mierzenie pojęć abstrakcyjnych, takich jak rozumowanie, obejmuje ocenę podzbioru zadań, a wybór ten będzie z natury niedoskonały. Stwierdził: „W tych ocenach jest wiele poruszających elementów i spełnienie ich wszystkich wymaga równowagi. Jednak w tym artykule wzywa się do ustanowienia punktów odniesienia, aby jasno określić, co mają mierzyć”. Dodał: „W przypadku pojęć takich jak nieszkodliwość czy rozumowanie ludzie często po prostu rzucają słówkiem, aby wybrać coś, co mieści się w tej kategorii i co mogą zmierzyć, i mówią: «Świetnie, teraz to zmierzyłem»”. Nowa gazeta oferuje osiem zaleceń oraz listę kontrolną mającą na celu usystematyzowanie kryteriów wzorcowych oraz zwiększenie przejrzystości i zaufania. Sugerowane ulepszenia obejmują określenie zakresu ocenianego działania, skonstruowanie baterii zadań, które lepiej odzwierciedlają ogólne umiejętności, oraz porównanie wydajności modelu za pomocą analizy statystycznej. Nikola Jurkovic, pracownik techniczny centrum badawczego METR AI, pochwalił wkład artykułu. Jurkovic powiedział NBC News: „Potrzebujemy większej dyscypliny, jeśli chcemy móc interpretować wyniki testów porównawczych AI. Ta lista kontrolna jest dla badaczy punktem wyjścia do sprawdzenia, czy ich punkt odniesienia będzie wnikliwy”. Wtorkowy artykuł opiera się na wcześniejszych badaniach, które wykazały błędy w wielu testach porównawczych AI. Naukowcy z firmy Anthropic zajmującej się sztuczną inteligencją opowiadali się za wzmożeniem testów statystycznych w zeszłym roku. Testy te miały na celu określenie, czy wydajność modelu w teście porównawczym odzwierciedlała rzeczywiste różnice w możliwościach, czy też była „szczęśliwym wynikiem”, biorąc pod uwagę zadania i pytania. Kilka grup badawczych zaproponowało niedawno nowe serie testów mających na celu poprawę przydatności i dokładności testów porównawczych. Te nowe testy lepiej mierzą rzeczywistą wydajność modeli w zadaniach istotnych z ekonomicznego punktu widzenia. Pod koniec września OpenAI uruchomiło nową serię testów oceniających wydajność AI w 44 różne zawody. Testy te mają na celu lepsze ugruntowanie twierdzeń dotyczących możliwości sztucznej inteligencji w rzeczywistych scenariuszach. Przykłady obejmują zdolność sztucznej inteligencji do korygowania niespójności w fakturach klientów w programie Excel w przypadku roli analityka sprzedaży lub tworzenia pełnego harmonogramu produkcji dla 60-sekundowej sesji wideo w przypadku roli producenta wideo. Dan Hendrycks, dyrektor Centrum Bezpieczeństwa AI wraz z zespołem badawczym opublikował niedawno podobny test porównawczy w świecie rzeczywistym. Ten benchmark ocenia wydajność systemów AI w zakresie zadań niezbędnych do automatyzacji pracy zdalnej. Hendrycks powiedział NBC News: „Często zdarza się, że systemy sztucznej inteligencji uzyskują wysokie wyniki w testach porównawczych, ale w rzeczywistości nie rozwiązują rzeczywistego celu testu porównawczego”. Mahdi doszedł do wniosku, że badacze i programiści mają wiele możliwości do zbadania w ramach oceny porównawczej sztucznej inteligencji. Stwierdził: „Jesteśmy dopiero na samym początku naukowej oceny systemów sztucznej inteligencji”.





