Openai: PDPVAL Framework Testy AI na rzeczywistych pracach

Openai ogłosił nowe ramy oceny, PDPVAL, w celu pomiaru wyników sztucznej inteligencji na temat cennych ekonomicznych zadań. System testuje modele na 1320 rzeczywistych zadań zawodowych w celu wypełnienia luki między akademickimi punktami odniesienia a praktycznym zastosowaniem. Framework GDPVAL ocenia, w jaki sposób modele AI dotyczą 1320 odrębnych zadań związanych z 44 różnymi zawodami. Te miejsca pracy są przede wszystkim stanowiskami w zakresie produkcji wiedzy w branżach, w których każda przyczynia się do ponad 5% produktu krajowego brutto (PKB) Stanów Zjednoczonych. Aby skonstruować tę listę odpowiednich zawodów, Openai wykorzystał dane z amerykańskiego Bureau of Labor Statistics (BLS) i bazy danych netto Departamentu Pracy. Powstały wybór zawodów obejmuje zawody często związane z integracją AI, takimi jak inżynierowie oprogramowania, prawnicy i redaktorzy wideo. Ramy obejmują również zawody rzadziej omawiane w kontekście AI, w tym detektywów, farmaceutów i pracowników socjalnych, zapewniając szerszą ocenę potencjalnego wpływu ekonomicznego. Według firmy zadania w ramach oceny zostały stworzone przez profesjonalistów, którzy posiadają średnio 14 lat doświadczenia w swoich dziedzinach. Środek ten miał na celu zapewnienie, że zadania dokładnie odzwierciedlają „produkty z prawdziwej pracy, takie jak krótki brief, plan inżynierski, rozmowa z obsługą klienta lub plan opieki pielęgniarskiej”. Openai określił, że zakres GDPVAL w wielu zadaniach i zawodach odróżnia go od innych ocen koncentrujących się na wartości ekonomicznej, które mogą koncentrować się na jednej domenie, takiej jak inżynieria oprogramowania. Projekt oceny rezygnuje z prostych podpowiedzi tekstowych. Zamiast tego zapewnia modele AI pliki do odniesienia i wymaga tworzenia dostaw multimodalnych, takich jak slajdy prezentacyjne i dokumenty sformatowane. Takie podejście ma na celu symulować sposób interakcji użytkownika z technologią w profesjonalnym środowisku pracy. Openai stwierdził: „Ten realizm sprawia, że PDPVAL jest bardziej realistycznym testem, w jaki sposób modele mogą wspierać profesjonalistów”. W swoim badaniu Openai wykorzystał ramy PDPVVAL do oceny wyników z kilku własnych modeli, w tym GPT-4O, GPT-4O-Mini, GPT-3 i najnowszego GPT-5. Ocena obejmowała również modele innych firm: Anthropic’s Claude Opus 4.1, Google’s Gemini 2.5 Pro i XAI GROK 4. Podstawa procesu oceniania zaangażowała doświadczonych specjalistów, którzy przeprowadzili ślepe oceny wyników modeli. Te równiarki ludzkie nieświadomie porównali pracę generowaną przez AI z produkcjami wytwarzanymi przez ludzkich ekspertów, zapewniając bezpośredni punkt odniesienia jakości bez wiedzy o pochodzeniu pracy. Aby uzupełnić ten proces kierowany przez człowieka, Openai opracował system AI „autograder”. System ten ma na celu przewidywanie, w jaki sposób ludzki ewaluator oceniłby dany dostawca. Firma ogłosiła zamiar wydania tego autogradera jako eksperymentalnego narzędzia badawczego dla innych. Openai wystawił jednak ostrożność, stwierdzając, że autograder nie jest tak niezawodny jak równiarki ludzkie. Potwierdził, że narzędzie nie ma na celu zastąpienia oceny człowieka w najbliższej przyszłości, odzwierciedlając dopracowany osąd wymagany do oceny wysokiej jakości pracy zawodowej. Początkowe ustalenia z testów GDBVVAL wskazują, że obecna zaawansowana AI zbliża się do standardów jakościowych profesjonalistów. „Stwierdziliśmy, że dzisiejsze najlepsze modele graniczne już zbliżają się do jakości pracy produkowanej przez ekspertów branżowych” – napisał Openai. Wśród testowanych modeli Claude Opus 4.1 z ANTROPIC zidentyfikowano jako najlepszy ogólny wykonawca. Jego szczególne mocne strony zaobserwowano w zadaniach związanych z estetyką, które obejmują elementy takie jak profesjonalne formatowanie dokumentów i wyraźny, skuteczny układ slajdów prezentacji. Cechy te są często kluczowe dla materiałów skierowanych do klienta i skutecznej komunikacji w kontekście biznesowym. Podczas gdy Claude Opus 4.1 wyróżniał się prezentacją, model GPT-5 Openai wykazał doskonałą wydajność w dokładności. Było to szczególnie widoczne w zadaniach, które wymagało znalezienia i prawidłowego zastosowania wiedzy specyficznej dla domeny. Badania podkreśliły również szybkie tempo poprawy modelu. Wyniki pokazały, że wydajność zadań PDPVAL „wzrosła ponad dwukrotnie z GPT-4O (wydana Spring 2024) do GPT-5 (wydane lato 2025)”. Ten znaczny wzrost zdolności w stosunkowo krótkim okresie wskazuje na znaczne przyspieszenie w opracowywaniu podstawowych technologii AI. Ocena obejmowała również analizę wydajności. „Stwierdziliśmy, że modele graniczne mogą wykonać zadania GDPVAL o około 100 × szybciej i 100 × tańsze niż eksperci branżowi” – donosi Openai. Firma natychmiast zakwalifikowała to odkrycie z krytycznym zastrzeżeniem. „Figury te odzwierciedlają jednak czas wnioskowania o czystym modelu i wskaźniki rozliczeń API, a zatem nie przechwytują ludzkich etapów nadzoru, iteracji i integracji wymaganych w prawdziwych ustawieniach miejsca pracy w celu korzystania z naszych modeli”. Kontekst ten wyjaśnia, że obliczenia wyklucza znaczny czas i koszty związane z zarządzaniem, rafinacją i wdrażaniem prac generowanych przez AI w praktycznym przepływie pracy biznesowej. Openai uznał znaczące ograniczenia w bieżącej wersji ram PKPVAL, opisując ją jako „wczesny krok, który nie odzwierciedla pełnego niuansu wielu zadań ekonomicznych”. Głównym ograniczeniem jest zastosowanie jednorazowych ocen. Oznacza to, że ramy nie mogą zmierzyć zdolności modelu do obsługi iteracyjnych prac, takich jak wypełnienie wielu szkiców projektu lub jego zdolność do wchłaniania kontekstu dla ciągłego zadania z czasem. Na przykład bieżący test nie może ocenić, czy model może z powodzeniem edytować prawny brief oparty na opinii klienta, czy ponowne uwzględnienie anomalii w celu uwzględnienia nowo odkrytej anomalii. Kolejnym ograniczeniem zauważonym przez firmę jest to, że praca profesjonalna nie zawsze jest prostym procesem z zorganizowanymi plikami i jasną dyrektywą. Obecne ramy nie mogą uchwycić bardziej złożonych i mniej ustrukturyzowanych aspektów wielu miejsc pracy. Obejmuje to „ludzkie – i głęboko kontekstowe – badanie problemu poprzez rozmowę i radzenie sobie z niejednoznacznością lub zmianą okoliczności”. Elementy te są często kluczowe dla profesjonalnych ról, ale trudne do powtórzenia w znormalizowanym środowisku testowym. „Większość zadań to coś więcej niż zbiór zadań, które można zapisać” – dodał Openai. Firma oświadczyła, że zamierza zająć się tymi ograniczeniami w przyszłych iteracjach ram. Plany obejmują rozszerzenie swojego zakresu w celu rozwiązywania większej liczby branż i włączenie trudniejszych do automatu zadań. W szczególności OpenAI będzie próbowało opracować oceny zadań obejmujących interaktywne przepływy pracy, w których model musi angażować się w proces tam iz powrotem, lub te, które wymagają zrozumienia obszernego wcześniejszego kontekstu, co pozostaje wyzwaniem dla wielu systemów AI. W ramach tej ekspansji OpenAI wyda podzbiór zadań PDPVVAL dla naukowców do wykorzystania we własnej pracy. Z tych wyników stwierdzono, że AI nieuchronnie będzie nadal zakłócać rynek pracy. Firma zakłada, że sztuczna inteligencja może przyjąć rutynowe „zajęcie”, uwalniając w ten sposób ludzkich pracowników, aby skoncentrować się na bardziej złożonych i strategicznych zadaniach. Ta perspektywa określa AI jako narzędzie do zwiększania ludzkiej wydajności, a nie wyłącznie do wymiany. „Zwłaszcza w podgrupie zadań, w których modele są szczególnie silne, oczekujemy, że zadanie modelu przed wypróbowaniem go z człowiekiem zaoszczędzi czas i pieniądze” – napisał Openai. Równolegle z tymi ustaleniami firma powtórzyła swoje zobowiązanie do szerszej misji. Obejmuje to plany demokratyzacji dostępu do narzędzi AI, wysiłki w celu „wspierania pracowników poprzez zmiany i budowanie systemów, które nagradzają szeroki wkład”. „Naszym celem jest utrzymanie wszystkich w„ windzie ”sztucznej inteligencji” – podsumowała firma.

Polecane wizerunki

No Result