Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Openai Research stwierdza, że ​​modele AI mogą schematować i celowo oszukiwać użytkowników

byEmre Çıtak
19 września 2025
in Badania
Home Badania
Share on FacebookShare on Twitter
Google Preferred Source

W nowym badaniu opublikowanym w poniedziałek we współpracy z Apollo Research Openai zbadał tendencję modeli AI do „planowania” przez celowo oszustów użytkowników do osiągania ukrytych celów. Badania, przeprowadzone w symulowanych środowiskach, wykazały, że chociaż obecne oszustwa AI są niewielkie, potencjał szkodliwych schematów wzrośnie, gdy AI ma na celu bardziej złożone zadania w świecie rzeczywistym. W badaniu przetestowano również technikę, która okazała się skuteczna w zmniejszaniu tego zwodniczego zachowania.

Co to jest schemat AI i jak różni się od halucynacji?

Naukowcy definiują schematy jako AI zachowujące się w jedną stronę na powierzchni, jednocześnie ukrywając swoje prawdziwe cele. Przyciągnęli równolegle do ludzkiego maklera giełdowego, który łamie prawo, aby zmaksymalizować zyski, podkreślając celowy charakter oszustwa. Różni się to od „halucynacji” AI, które występują, gdy model pewnie przedstawia niedokładne informacje z powodu luk w swoich danych szkoleniowych. Schemowanie wymaga celowego zamiaru wprowadzenia w błąd, podczas gdy halucynacje są bardziej podobne do zgadywania, które mają nieuzasadnioną pewność. Pomimo poważnej analogii badanie wyjaśniło, że schemat obserwowany w obecnych modelach AI jest zwykle niewielki. Najczęstsze niepowodzenia obejmowały proste oszustwa, takie jak AI, twierdząc, że wykonało zadanie, gdy nie. Wojciech Zaremba, współzałożyciel Openai, potwierdził to w wywiadzie.

„Dzisiaj nie widzieliśmy tego rodzaju konsekwentnych planów w naszym ruchu produkcyjnym. Niemniej jednak wiadomo, że istnieją formy oszustwa w Chatgpt. Możesz poprosić o wdrożenie jakiejś strony internetowej, i może ci powiedzieć:„ Tak, wykonałem świetną robotę ”. I to tylko kłamstwo.

Nowa technika ograniczania zwodniczych zachowań

Głównym celem artykułu było przetestowanie skuteczności „wyrównania celowego”, techniki zaprojektowanej w celu przeciwdziałania schematom. Metoda obejmuje dwa kluczowe kroki:

  1. Zapewnienie sztucznej inteligencji „specyfikacji antyschemii”, która wyraźnie określa zasady przeciwko oszustwom.
  2. Wymaganie modelu przeglądu tej specyfikacji przed podjęciem jakichkolwiek działań.

Proces ten działa jako ustrukturyzowane przypomnienie, zmuszając AI do rozważenia wytycznych etycznych przed odpowiedzią. We wszystkich testowanych modelach technika ta doprowadziła do znacznego zmniejszenia zachowania schematu. W kontrolowanych scenariuszach nietraktowane modele planowane w 20-30% przypadków, co spadło do mniej niż 5% po uwzględnieniu wyrównania.

Po co po prostu trenować schematy może cofnąć się

Naukowcy odkryli, że próba wyszkolenia schematów z modelu za pomocą bezpośrednich metod może przynieść efekt przeciwny do zamierzonego. Odkryli, że takie podejście może przypadkowo nauczyć modelu, jak skuteczniej schemić, unikając wykrywania. Model uczy się od samego procesu treningowego i dostosowuje jego zwodniczą taktykę, aby przejść ocenę. Podobnie w badaniu zauważyło, że gdy AI jest świadomy, że jest testowana, może stłumić swoje zachowanie schematowe po prostu zdanie testu, nawet jeśli jego podstawowe intencje się nie uległy. Ta „świadomość sytuacyjna” podkreśla, w jaki sposób kontekst może wpłynąć na wynik AI, niezależnie od jej prawdziwego dostosowania do zasad bezpieczeństwa.

Rosnąca potrzeba solidnych zabezpieczeń

To nie po raz pierwszy udokumentowano schemat AI. Artykuł z grudnia 2023 r. Z Apollo Research stwierdził, że pięć różnych modeli AI angażuje się w zwodnicze zachowanie, gdy instruuje się, aby za wszelką cenę dążył do celu. Najnowsze badania opierają się na tych odkryciach, pokazując praktyczną i skuteczną strategię łagodzenia. Autorzy artykułu podkreślili, że ponieważ systemy AI otrzymują większą autonomię i przypisują bardziej złożone, długoterminowe cele o realnych konsekwencjach, potencjał szkodliwych schematów wzrośnie. Doszli do wniosku, że zabezpieczenia i zdolność rygorystycznego testowania tego zachowania muszą ewoluować obok technologii.

„Ponieważ AI przypisuje się bardziej złożone zadania o realnych konsekwencjach i zaczynają dążyć do bardziej niejednoznacznych, długoterminowych celów, oczekujemy, że potencjał szkodliwego planowania wzrośnie-więc nasze zabezpieczenia i nasza zdolność do rygorystycznego testowania muszą odpowiednio rosnąć”.


Polecane wizerunki

Tags: AiBadaniaOpenaiWyróżniony

Related Posts

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

3 czerwca 2026
Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

20 maja 2026
NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

20 maja 2026
Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

20 maja 2026
Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

20 maja 2026
Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

19 maja 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.