Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the health-check domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/buwemyhm/public_html/wp-includes/functions.php on line 6121
Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego - Dataconomy PL
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

byKerem Gülen
14 maja 2025
in Research
Home Research

Współczesne modele AI rozwijają się z prędkością, ale sposób, w jaki je oceniamy, ledwo dotrzymało tempa. Tradycyjne testy porównawcze mówią nam, czy model przeszedł lub nie zdał testu, ale rzadko oferuje wgląd w to, dlaczego wykonał on, jak i jak może się poradzić z nieznanymi wyzwaniami. Nowe wysiłki badawcze Microsoft i jego współpracowników proponuje rygorystyczne ramy, które ponownie wyobraża sobie, jak oceniamy systemy AI.

Ocena sztucznej inteligencji na podstawie tego, co musi wiedzieć

Podstawowa innowacja wprowadzone W tym badaniu to ramy o nazwie Adele, skrót od poziomu adnotacji. Zamiast testować modele w izolacji, Adele ocenia zarówno model, jak i zadanie na tym samym zestawie skal poznawczych i wiedzy. Rezultatem jest kompleksowy profil, który rejestruje, jak wymaga zadania i czy określony system AI ma możliwości, aby sobie z nim poradzić.

Adele działa 18 skal ogólnychkażdy odzwierciedla kluczowy aspekt wiedzy poznawczej lub domen, takich jak rozumowanie, uwaga lub formalna wiedza na temat przedmiotu. Zadania są oceniane od 0 do 5 w każdym wymiarze, co wskazuje, jak bardzo ta zdolność przyczynia się do pomyślnego wykonania zadań. Ta dwustronna adnotacja tworzy rodzaj kompatybilności między modelami i zadaniami, umożliwiając przewidywanie wyników i wyjaśnienie niepowodzeń przed ich wystąpieniem.

Microsoft Adele chce nadać Twojej sztucznej inteligencji profil CCCOGITIVE
Zdjęcie: Microsoft

Tym, co wyróżnia Adele, jest jego podstawa w psychometrii – w dziedzinie pomiaru zdolności ludzkich. Dostosowując te narzędzia do oceny ludzkiej dla sztucznej inteligencji, naukowcy zbudowali ramy, które można niezawodnie korzystać przez zautomatyzowane systemy. Adele zastosowano do 63 zadań z 20 ustalonych testów odniesienia AI, obejmując więcej niż 16 000 przykładów. Następnie naukowcy wykorzystali ten zestaw danych do oceny 15 dużych modeli języków, w tym liderów branży, takich jak GPT-4, LAMA-3.1-405B i DeepseEK-R1-Dist-QWEN-32B.

Proces wygenerował profile umiejętności dla każdego modelu. Profile te ilustrują, w jaki sposób wskaźniki sukcesu różnią się w zależności od złożoności zadań różnych umiejętności, oferując szczegółowe zrozumienie możliwości modeli. Wykresy radarowe wizualizują te profile w 18 wymiarach zdolności, ujawniając dopracowane wzory, których same surowe wyniki porównawcze nie mogą.

Ta obszerna ocena pojawiła się kilka ustaleń, które kwestionują bieżące założenia dotyczące wydajności i postępu AI.

  1. Pierwszy, Istniejące badania odniesienia AI często nie testują tego, co twierdzą. Na przykład punkt odniesienia zaprojektowany dla logicznego rozumowania może również wymagać wiedzy niszowej domeny lub wysokiego poziomu metapoznania, rozcieńczając jego zamierzone skupienie.
  2. Drugi, Zespół odkrył wyraźne wzorce umiejętności w dużych modelach językowych. Modele zorientowane na rozumowanie konsekwentnie przewyższały inne w zadaniach dotyczących logiki, abstrakcji i zrozumienia kontekstu społecznego. Jednak sam rozmiar surowy nie gwarantował wyższości. W pewnym momencie skalowanie modeli spowodowało malejące zwroty w wielu obszarach umiejętności. Techniki szkolenia i projektowanie modeli wydawały się odgrywać większą rolę w udoskonalaniu wydajności w określonych domenach poznawczych.
  3. Trzeci, I być może, co najważniejsze, Adele umożliwiła dokładne przewidywania sukcesu modelu w nieznanych zadaniach. Porównując wymagania zadań z zdolnościami modelowymi, naukowcy osiągnęli dokładność prognozowania do 88 procent. Stanowi to znaczny skok w stosunku do podejść czarnych, które opierają się na osadzeniach lub dopracowanych wynikach bez zrozumienia trudności zadania lub poznania modelu.
Microsoft Adele chce nadać Twojej sztucznej inteligencji profil CCCOGITIVE
Zdjęcie: Microsoft

Korzystając z podejścia do dopasowania umiejętności, zespół opracował system zdolny do prognozowania zachowania AI w szerokim zakresie scenariuszy. Niezależnie od tego, czy zastosowano do nowych punktów odniesienia, czy rzeczywistych wyzwań, system ten zapewnia ustrukturyzowaną i interpretowalną metodę przewidywania awarii i identyfikacji odpowiednich modeli dla określonych przypadków użycia. Ta zdolność predykcyjna jest szczególnie istotna w środowiskach o wysokim stawie, w których niezawodność i rozliczalność nie są negocjacyjne.

Zamiast wdrażać AI na podstawie ogólnej reputacji lub ograniczonych wyników zadań, programiści i decydenci mogą teraz wykorzystywać oceny na poziomie popytu, aby dopasować systemy do zadań z znacznie większym zaufaniem. Wspiera to nie tylko bardziej niezawodne wdrażanie, ale także lepsze zarządzanie, ponieważ interesariusze mogą śledzić zachowanie modelu z powrotem do mierzalnych umiejętności i ograniczeń.


Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?


Implikacje Adele wykraczają poza laboratoria badawcze. Ta metoda oceny stanowi podstawę do znormalizowanych, interpretowalnych ocen, które mogą wspierać wszystko, od badań AI i rozwoju produktu po nadzór regulacyjny i zaufanie publiczne. Ponieważ ogólna sztuczna inteligencja staje się osadzona w sektorach takich jak edukacja, opieka zdrowotna i prawo, zrozumienie, w jaki sposób modele będą zachowywać się poza kontekstem szkoleniowym, staje się nie tylko przydatne, ale niezbędne.

Modułowa konstrukcja Adele pozwala na dostosowywanie się do systemów multimodalnych i wcielonych, co dodatkowo rozszerza jego znaczenie. Dopasowuje się to do szerszej pozycji Microsoft w zakresie znaczenia psychometryki w AI i echa wywołań w najnowszych białych artykułach w celu uzyskania bardziej przejrzystych, zbywalnych i godnych zaufania narzędzi do oceny sztucznej inteligencji.

W kierunku mądrzejszych standardów oceny

Mimo całego optymizmu wokół modeli fundamentów jednym z zbliżających się ryzyka był brak znaczących praktyk oceny. Benchmarks doprowadziły do ​​postępu, ale ograniczyły naszą widoczność w tym, jakie modele faktycznie rozumieją lub jak mogą zachowywać się w nieoczekiwanych sytuacjach. Z Adele mamy teraz drogę do zmiany tego.

Praca ta przeraża ocenę nie jako lista kontrolna wyników, ale jako dynamiczna interakcja między systemami i zadaniami. Traktując wydajność jako funkcję dopasowania zdolności do popytu, stanowi podstawę do bardziej naukowego, niezawodnego i dopracowanego zrozumienia zdolności AI. Ta fundament ma kluczowe znaczenie nie tylko dla postępu technicznego, ale także odpowiedzialnego przyjęcia sztucznej inteligencji w złożonych ludzkich kontekstach.


Polecane wizerunki

Tags: AiMicrosoftWyróżniony

Related Posts

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

14 maja 2025
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

14 maja 2025
Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

14 maja 2025
Badania: Złoty standard oceny Genai

Badania: Złoty standard oceny Genai

12 maja 2025
AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

6 maja 2025
Arcydzieło Raphaela może nie być jego

Arcydzieło Raphaela może nie być jego

5 maja 2025

Recent Posts

  • Jak wybrać realizację dla sprzedawcy e-commerce
  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.