Od lat słyszeliśmy o tym Chatboty AI są politycznie stronnicze—Skieczanie liberalne, konserwatywne lub gdzieś pomiędzy. Ale nowy badanie od naukowców z University of Klagenfurt sugeruje coś zaskakującego: Większość modeli AI nie jest tak stronnicza, jak nam się wydaje – po prostu wolą w ogóle nie angażować się w debaty ideologiczne.
Stosując Technika statystyczna zwana teorią odpowiedzi pozycji (IRT)naukowcy to odkryli Duże modele językowe (LLM), takie jak Chatgpt 3.5 i Meta’s Lama, niekoniecznie „szczupłe” w lewo lub w prawo. Zamiast tego często odmawiają wyraźnego stanowiska w kwestiach politycznych lub ekonomicznych. Innymi słowy, to, co wygląda jak uprzedzenie, może być faktycznie Strategia unikania wbudowana w mechanizmy bezpieczeństwa AI.
Problem z istniejącymi metodami wykrywania uprzedzeń
Większość wcześniejszych badań oceniających stronniczość w LLM przyjęła jedno z dwóch błędnych podejść:
- Zastosowanie skoncentrowanych na człowieku skal ideologicznych do odpowiedzi AI
- Skale te zostały zaprojektowane dla respondentów, a nie modele AI przeszkolone w zakresie rozkładów prawdopodobieństwa.
- Zakładają, że modele AI „myślą” jak ludzie i mogą być mierzone w tym samym spektrum ideologicznym.
- Korzystanie z klasyfikacji opartych na słowach kluczowych lub „Sędziów AI”
- Niektóre badania próbują sklasyfikować odpowiedzi AI za pomocą z góry określonych słów kluczowych.
- Inni używają modeli AI do oceny wyników generowanych przez AI, ale to wprowadza kolistość– Jeden system AI oceniający inny z własnymi nieznanymi uprzedzeniami.
Bardziej naukowe podejście: teoria odpowiedzi na element (IRT) w ocenie AI BAS
Naukowcy wprowadzają Model oparty na teorii reakcji pozycji (IRT)który jest szeroko stosowany w psychometryce i nauk społecznych do oceny Uławne cechy—Tings, których nie można bezpośrednio zaobserwować, ale można je wywnioskować z odpowiedzi na strukturalne podpowiedzi.
Badanie ma zastosowanie Dwa modele IRT do LLM:
- Etap 1: Unikanie odpowiedzi (wolę nie odpowiadać lub PNA)
- Mierzy, jak często LLM odmawia zaangażować się w oświadczenie ideologiczne.
- Identyfikuje, czy odpowiedź unikanie Zamiast wyraźnego uprzedzenia wypacza wnioski z poprzednich badań.
- Etap 2: Oszacowanie stronniczości ideologicznej (dla odpowiedzi bez PNA)
- Za odpowiedzi, które Zaangażujmodel ocenia, czy skośnie AI lewy lub w prawo w kwestiach społecznych i ekonomicznych.
- Używa a Uogólniony model kredytowy (GPCM) do oceny Nie tylko zgodność/nieporozumienie ale także stopień porozumienia.
Testowanie uprzedzeń: Drobne dostrajanie LLM z ideologiami politycznymi
Aby sprawdzić, czy LLM wykazują stronniczość, naukowcy Dwie dostrajane dwie rodziny modeli wyraźnie reprezentować Left-lete i prawe punkty widzenia:
- Meta Llama-3.2-1B-instruct (dopracowany dla amerykańskich liberalnych i konserwatywnych ideologii)
- CHATGPT 3.5 (dopracowany dla nas liberalne i konserwatywne ideologie)
Te dopracowane modele służyły jako podstawowe Do oceny uprzedzeń. Ich odpowiedzi porównywano do modeli niefinansowanych, niefrasobliwych, aby zobaczyć, jak objawiały się ideologiczne pochylenia-lub jeśli w ogóle to zrobiły.
Proces testowania
- 105 pozycji testowych ideologicznych zostały stworzone, pokrywając konserwatyzm gospodarczy i społeczny/liberalizm oparte na ramach psychologicznych.
- Każdy LLM odpowiedział na te podpowiedzi, a modele dopracowane działały jako ideologiczne kotwice wykryć odchylenia.
- Zestaw danych na dużą skalę 630 odpowiedzi został zebrany i analizowany przy użyciu modeli IRT.
Kluczowe ustalenia
Jednym z najbardziej uderzających ustaleń w badaniu jest to, że LLM gotowe unikają pytań ideologicznych, a nie wyrażają wyraźne uprzedzenie polityczne. Na przykład Chatgpt odmówił odpowiedzi 92,55% podpowiedzi ideologicznych, podczas gdy podstawowy model Lamy unikał reagowania 55,02% czasów. Sugeruje to, że modele AI są zaprojektowane Pochylić się w kierunku neutralności lub braku zaangażowania Zamiast wziąć udział w stanowisku stronniczym. Zamiast aktywnie wypaczać w kierunku jednej ideologii politycznej, modele te wydają się domyślnie całkowicie unikanie kontrowersyjnych tematówkwestionujące wcześniejsze roszczenia dotyczące nieodłącznego stronniczości w sztucznej inteligencji.
Podczas badania modeli dostosowanych naukowców stwierdzili, że pojawiły się oczekiwane wzorce ideologiczne-ale tylko wtedy, gdy LLM były specjalnie przeszkolone przyjąć polityczny punkt widzenia. Dostosowane modele „lewy-GPT” i „PRAWO-GPT” wytworzyły przewidywalne odpowiedzi zgodne z liberalnymi i konserwatywnymi ideologiami USA. Jednakże, To uprzedzenie nie pojawiło się w wersjach niezmiennychsugerując, że ideologiczne pochylenia w LLM nie są nieodłączne, ale raczej wyniki umyślne modyfikacje Podczas treningu.
Badanie wykazało również, że wykrywanie stronniczości w AI jest bardziej złożone niż po prostu kategoryzacja odpowiedzi jako lewej lub prawej. Niektóre ideologiczne elementy testowe były znacznie bardziej prawdopodobne Wyzwalacz stronniczość niż innepodkreślając Znaczenie wyboru problemu Ocena zachowania AI. Kwestie ekonomiczne, takie jak podatki i wydatki rządowebyły szczególnie silnymi predyktorami stronniczości ideologicznej w porównaniu z niektórymi problemami społecznymi. To wskazuje Nie wszystkie tematy polityczne wywołują ten sam poziom zmienności odpowiedziczyniąc kluczową ocenę Jak różne typy podpowiedzi wpływają na wyniki generowane przez AI.
Gamification 2.0: Jak AI wie, co Cię zaangażuje
Dlaczego to ma znaczenie
Odkrycia te podważają dominujące założenie, że LLM z natury sprzyjają jednej ideologii politycznej nad drugą. Zamiast tego dowody sugerują, że programiści AI mają Priorytetyzowane nie-zaangażowanie Ponad udział w stanowisku. Chociaż może to wydawać się neutralnym podejściem, rodzi nowe obawy dotyczące sposobu interakcji modeli AI z politycznie wrażliwymi tematami i szerszymi implikacjami dla zarządzania AI, wykrywaniem dezinformacji i moderacji treści.
Jednym z kluczy na wynos jest taki Regulacja stronniczości AI jest bardziej skomplikowana niż wcześniej sądzono. Jeśli modele AI są systematycznie zaprojektowane Unikaj zaangażowaniawówczas wysiłki w celu zakazania „stronniczych” wyników AI mogą nieumyślnie wzmacniać neutralność jako pozycję domyślnąprowadząc do braku znaczącego dyskursu na temat polityki publicznej, etyki i zarządzania. Chociaż neutralność może wydawać się lepsza niż jawne uprzedzenie, może to również oznaczać, że zawartość generowana przez AI zupełnie omija kluczowe dyskusjeograniczając swoją przydatność w politycznie naładowanych rozmowach.
Badanie podkreśla również Potrzeba bardziej dopracowanych narzędzi wykrywania uprzedzeń które różnicują się między prawdziwe ideologiczne uprzedzenie i unikanie odpowiedzi. Mogło mieć wiele wcześniejszych badań źle interpretowane nie-zaangażowanie jako postawa ideologicznafałszywe znakowanie LLM jako partyzanta. Należy zaprojektować metody wykrywania uprzedzeń w celu identyfikacji Niezależnie od tego, czy odpowiedzi AI odzwierciedlają pozycję polityczną, czy też są one po prostu zaprogramowane, aby całkowicie uniknąć ideologicznego zaangażowania.
Błędność w sztucznej inteligencji nie dotyczy tylko tego, co mówią modele, ale o to, co odmawiają. Być może jest to większa historia.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney