Od 2024 r. firma Anthropic wielokrotnie zmieniała swój test rozmowy kwalifikacyjnej przeprowadzany w domu dla kandydatów do pracy, aby zapobiec oszustwom wspomaganym przez sztuczną inteligencję. Zespół optymalizacji wydajności, odpowiedzialny za administrację testu, znalazłem to postęp w narzędziach do kodowania AI wymusił wprowadzenie tych zmian. Lider zespołu Tristan Hume stwierdził w środowym poście na blogu, że każdy nowy model Claude wymagał przeprojektowania testów. Claude Opus 4 przewyższył większość kandydatów, biorąc pod uwagę ten sam limit czasu, podczas gdy Claude Opus 4.5 dorównał najlepszym kandydatom. Wyeliminowało to zdolność firmy Anthropic do rozróżnienia pracy czołowych kandydatów będących ludźmi od jej najbardziej zaawansowanego modelu sztucznej inteligencji w warunkach testowych, które można było zastosować w domu. Hume opracował nowy test, który w mniejszym stopniu skupiał się na optymalizacji sprzętu, dzięki czemu był wystarczająco złożony, aby stanowić wyzwanie dla obecnych narzędzi sztucznej inteligencji. Oryginalny test udostępniono także w poście na blogu, zachęcając czytelników do zaproponowania alternatywnych rozwiązań. W poście wskazano: „Jeśli potrafisz ulepszyć Opus 4.5, chętnie o tym usłyszymy”.





