Współczesne modele AI rozwijają się z prędkością, ale sposób, w jaki je oceniamy, ledwo dotrzymało tempa. Tradycyjne testy porównawcze mówią nam, czy model przeszedł lub nie zdał testu, ale rzadko oferuje wgląd w to, dlaczego wykonał on, jak i jak może się poradzić z nieznanymi wyzwaniami. Nowe wysiłki badawcze Microsoft i jego współpracowników proponuje rygorystyczne ramy, które ponownie wyobraża sobie, jak oceniamy systemy AI.
Ocena sztucznej inteligencji na podstawie tego, co musi wiedzieć
Podstawowa innowacja wprowadzone W tym badaniu to ramy o nazwie Adele, skrót od poziomu adnotacji. Zamiast testować modele w izolacji, Adele ocenia zarówno model, jak i zadanie na tym samym zestawie skal poznawczych i wiedzy. Rezultatem jest kompleksowy profil, który rejestruje, jak wymaga zadania i czy określony system AI ma możliwości, aby sobie z nim poradzić.
Adele działa 18 skal ogólnychkażdy odzwierciedla kluczowy aspekt wiedzy poznawczej lub domen, takich jak rozumowanie, uwaga lub formalna wiedza na temat przedmiotu. Zadania są oceniane od 0 do 5 w każdym wymiarze, co wskazuje, jak bardzo ta zdolność przyczynia się do pomyślnego wykonania zadań. Ta dwustronna adnotacja tworzy rodzaj kompatybilności między modelami i zadaniami, umożliwiając przewidywanie wyników i wyjaśnienie niepowodzeń przed ich wystąpieniem.

Tym, co wyróżnia Adele, jest jego podstawa w psychometrii – w dziedzinie pomiaru zdolności ludzkich. Dostosowując te narzędzia do oceny ludzkiej dla sztucznej inteligencji, naukowcy zbudowali ramy, które można niezawodnie korzystać przez zautomatyzowane systemy. Adele zastosowano do 63 zadań z 20 ustalonych testów odniesienia AI, obejmując więcej niż 16 000 przykładów. Następnie naukowcy wykorzystali ten zestaw danych do oceny 15 dużych modeli języków, w tym liderów branży, takich jak GPT-4, LAMA-3.1-405B i DeepseEK-R1-Dist-QWEN-32B.
Proces wygenerował profile umiejętności dla każdego modelu. Profile te ilustrują, w jaki sposób wskaźniki sukcesu różnią się w zależności od złożoności zadań różnych umiejętności, oferując szczegółowe zrozumienie możliwości modeli. Wykresy radarowe wizualizują te profile w 18 wymiarach zdolności, ujawniając dopracowane wzory, których same surowe wyniki porównawcze nie mogą.
Ta obszerna ocena pojawiła się kilka ustaleń, które kwestionują bieżące założenia dotyczące wydajności i postępu AI.
- Pierwszy, Istniejące badania odniesienia AI często nie testują tego, co twierdzą. Na przykład punkt odniesienia zaprojektowany dla logicznego rozumowania może również wymagać wiedzy niszowej domeny lub wysokiego poziomu metapoznania, rozcieńczając jego zamierzone skupienie.
- Drugi, Zespół odkrył wyraźne wzorce umiejętności w dużych modelach językowych. Modele zorientowane na rozumowanie konsekwentnie przewyższały inne w zadaniach dotyczących logiki, abstrakcji i zrozumienia kontekstu społecznego. Jednak sam rozmiar surowy nie gwarantował wyższości. W pewnym momencie skalowanie modeli spowodowało malejące zwroty w wielu obszarach umiejętności. Techniki szkolenia i projektowanie modeli wydawały się odgrywać większą rolę w udoskonalaniu wydajności w określonych domenach poznawczych.
- Trzeci, I być może, co najważniejsze, Adele umożliwiła dokładne przewidywania sukcesu modelu w nieznanych zadaniach. Porównując wymagania zadań z zdolnościami modelowymi, naukowcy osiągnęli dokładność prognozowania do 88 procent. Stanowi to znaczny skok w stosunku do podejść czarnych, które opierają się na osadzeniach lub dopracowanych wynikach bez zrozumienia trudności zadania lub poznania modelu.

Korzystając z podejścia do dopasowania umiejętności, zespół opracował system zdolny do prognozowania zachowania AI w szerokim zakresie scenariuszy. Niezależnie od tego, czy zastosowano do nowych punktów odniesienia, czy rzeczywistych wyzwań, system ten zapewnia ustrukturyzowaną i interpretowalną metodę przewidywania awarii i identyfikacji odpowiednich modeli dla określonych przypadków użycia. Ta zdolność predykcyjna jest szczególnie istotna w środowiskach o wysokim stawie, w których niezawodność i rozliczalność nie są negocjacyjne.
Zamiast wdrażać AI na podstawie ogólnej reputacji lub ograniczonych wyników zadań, programiści i decydenci mogą teraz wykorzystywać oceny na poziomie popytu, aby dopasować systemy do zadań z znacznie większym zaufaniem. Wspiera to nie tylko bardziej niezawodne wdrażanie, ale także lepsze zarządzanie, ponieważ interesariusze mogą śledzić zachowanie modelu z powrotem do mierzalnych umiejętności i ograniczeń.
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że twoja praca jest nudna?
Implikacje Adele wykraczają poza laboratoria badawcze. Ta metoda oceny stanowi podstawę do znormalizowanych, interpretowalnych ocen, które mogą wspierać wszystko, od badań AI i rozwoju produktu po nadzór regulacyjny i zaufanie publiczne. Ponieważ ogólna sztuczna inteligencja staje się osadzona w sektorach takich jak edukacja, opieka zdrowotna i prawo, zrozumienie, w jaki sposób modele będą zachowywać się poza kontekstem szkoleniowym, staje się nie tylko przydatne, ale niezbędne.
Modułowa konstrukcja Adele pozwala na dostosowywanie się do systemów multimodalnych i wcielonych, co dodatkowo rozszerza jego znaczenie. Dopasowuje się to do szerszej pozycji Microsoft w zakresie znaczenia psychometryki w AI i echa wywołań w najnowszych białych artykułach w celu uzyskania bardziej przejrzystych, zbywalnych i godnych zaufania narzędzi do oceny sztucznej inteligencji.
W kierunku mądrzejszych standardów oceny
Mimo całego optymizmu wokół modeli fundamentów jednym z zbliżających się ryzyka był brak znaczących praktyk oceny. Benchmarks doprowadziły do postępu, ale ograniczyły naszą widoczność w tym, jakie modele faktycznie rozumieją lub jak mogą zachowywać się w nieoczekiwanych sytuacjach. Z Adele mamy teraz drogę do zmiany tego.
Praca ta przeraża ocenę nie jako lista kontrolna wyników, ale jako dynamiczna interakcja między systemami i zadaniami. Traktując wydajność jako funkcję dopasowania zdolności do popytu, stanowi podstawę do bardziej naukowego, niezawodnego i dopracowanego zrozumienia zdolności AI. Ta fundament ma kluczowe znaczenie nie tylko dla postępu technicznego, ale także odpowiedzialnego przyjęcia sztucznej inteligencji w złożonych ludzkich kontekstach.