GPT-4.5 Openai przewyższone Ludzie w ostatnim teście Turinga z UC San Diego, pokazując, jak łatwo ludzie mogą pomylić AI z prawdziwą rozmową, angażując się w czaty obok siebie.
Test Turinga od dawna mierzy, czy maszyna może przechodzić jako ludzka interakcja tekstowa. W tej zaktualizowanej wersji prawie 300 uczestników z Language and Cognition Lab z UC San Diego rozmawiało z człowiekiem i sztuczną inteligencją przed podjęciem decyzji.
GPT-4.5, wyposażony w podkudną osobowość, przekonał uczestników, że był to człowiek w 73 procentach-ponad 50-procentowy punkt odniesienia historycznie używany do zdefiniowania przepustki. Rzeczywistości ludzie nie oszukiwali uczestników tak często.
Inne systemy obejmowały Meta’s Llama 3, Openai’s GPT-4O i Eliza, jedna z najwcześniejszych chatbotów. Bez określonej postaci wskaźnik powodzenia GPT-4.5 spadł do 36 procent, a GPT-4O uzyskał zaledwie 21 procent.
Naukowcy zauważają, że zdanie testu Turinga nie oznacza, że sztuczna inteligencja naprawdę rozumie język jak osoba. Mimo to wyniki podkreślają, jak przekonująco te modele mogą naśladować ludzką rozmowę, szczególnie gdy otrzymują określone role. Ustalenia są obecnie publikowane na serwerze preprint, z recenzowaną wersją.