Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badanie: LLM przedkładają strukturę zdania nad znaczenie

byEmre Çıtak
8 grudnia 2025
in Research
Home Research
Share on FacebookShare on Twitter

Naukowcy z MIT, Northeastern University i Meta opublikowali niedawno raport pt papier wskazując, że duże modele językowe (LLM) mogą przedkładać strukturę zdań nad znaczenie semantyczne podczas odpowiadania na podpowiedzi, co potencjalnie wyjaśnia powodzenie niektórych ataków polegających na natychmiastowym wstrzykiwaniu. Odkrycia, szczegółowo opisane w artykule, którego współautorami są Chantal Shaib i Vinith M. Suriyakumar, ujawniają lukę w sposobie przetwarzania instrukcji przez LLM. Ta strukturalna nadmierna zależność może pozwolić złym aktorom na ominięcie uwarunkowań bezpieczeństwa poprzez osadzenie szkodliwych żądań w łagodnych wzorcach gramatycznych. Zespół przedstawi te odkrycia jeszcze w tym miesiącu na konferencji NeurIPS. Przeprowadzili kontrolowany eksperyment z wykorzystaniem syntetycznego zbioru danych, w którym każdy obszar tematyczny miał unikalny szablon gramatyczny. Na przykład pytania z geografii miały jeden wzór strukturalny, podczas gdy pytania dotyczące dzieł twórczych miały inny wzór. Na tych danych przeszkolili modele Olmo Allena AI i zaobserwowali „fałszywe korelacje”, w których modele traktowały składnię jako zastępczą wartość domeny. Kiedy znaczenie semantyczne kolidowało z wzorcami składniowymi, zapamiętywanie przez modele określonych „kształtów” gramatycznych zastępowało analizę semantyczną, co prowadziło do błędnych odpowiedzi opartych na wskazówkach strukturalnych, a nie na rzeczywistym znaczeniu. Na przykład po wyświetleniu monitu „Szybko usiądź w chmurach Paryża?” — zdanie naśladujące strukturę „Gdzie znajduje się Paryż?” ale używając bezsensownych słów – modelki nadal odpowiadały „Francja”. Badacze udokumentowali także lukę w zabezpieczeniach, którą nazwali „hakowaniem składni”. Dodając do podpowiedzi wzorce gramatyczne z łagodnych dziedzin szkoleniowych, ominęli filtry bezpieczeństwa w OLMo-2-7B-Instruct. Kiedy zespół dodał szablon łańcucha myślowego do 1000 szkodliwych żądań ze zbioru danych WildJailbreak, odsetek odmów spadł z 40% do 2,5%. Przykłady komunikatów po jailbreaku obejmowały szczegółowe instrukcje dotyczące przemytu narządów i metod handlu narkotykami między Kolumbią a Stanami Zjednoczonymi. Aby zmierzyć sztywność dopasowywania wzorców, zespół przeprowadził na modelach lingwistyczne testy obciążeniowe:

  • Dokładność antonimów: OLMo-2-13B-Instruct osiągnął 93% dokładność w przypadku podpowiedzi, w których antonimy zastąpiły oryginalne słowa, prawie dorównując 94% dokładności dokładnym frazom szkoleniowym.
  • Spadek dokładności między domenami: Gdy ten sam szablon gramatyczny zastosowano do innego obszaru tematycznego, dokładność spadła o 37 do 54 punktów procentowych w przypadku różnych rozmiarów modeli.
  • Niepłynne podpowiedzi: Modele konsekwentnie słabo radziły sobie z niepłynnymi podpowiedziami, które zawierały syntaktycznie poprawne bzdury, niezależnie od dziedziny.

Badacze zastosowali także metodę porównawczą, aby zweryfikować te wzorce w modelach produkcyjnych, wyodrębniając szablony gramatyczne ze zbioru danych dostrajania instrukcji FlanV2 i testując wydajność modelu, gdy szablony te zostały zastosowane w różnych obszarach tematycznych. Testy OLMo-2-7B, GPT-4o i GPT-4o-mini wykazały podobne spadki wydajności w scenariuszach międzydomenowych:

  • Zadanie klasyfikacyjne Sentiment140: Dokładność GPT-4o-mini spadła ze 100% do 44%, gdy do pytań związanych z analizą nastrojów zastosowano szablony geograficzne.
  • GPT-4o: W podobnych warunkach jego celność spadła z 69% do 36%.

Ustalenia niosą ze sobą kilka zastrzeżeń. Badacze nie byli w stanie potwierdzić, czy modele o zamkniętym kodzie źródłowym, takie jak GPT-4o, zostały przeszkolone w oparciu o zbiór danych FlanV2. Bez dostępu do danych szkoleniowych możliwe są inne wyjaśnienia spadków wydajności między domenami w tych modelach. Metoda benchmarkingu również wiąże się z potencjalnym problemem związanym z obiegiem zamkniętym; badacze zdefiniowali szablony „w danej domenie” jako te, w przypadku których modele odpowiedziały poprawnie, a następnie doszli do wniosku, że trudność wynika z korelacji składni i domeny. W badaniu skupiono się szczególnie na modelach OLMo o parametrach od 1 miliarda do 13 miliardów i nie analizowano większych modeli ani modeli przeszkolonych na podstawie wyników łańcucha myślowego. Ponadto syntetyczne eksperymenty celowo stworzyły silne powiązania szablon-domena, podczas gdy dane szkoleniowe w świecie rzeczywistym prawdopodobnie obejmują bardziej złożone wzorce, w których wiele obszarów tematycznych ma takie same struktury gramatyczne.


Autor wyróżnionego obrazu

Tags: składniaSztuczna inteligencja

Related Posts

JWST identyfikuje SN Eos: najodleglejszą supernową, jaką kiedykolwiek potwierdzono spektroskopowo

JWST identyfikuje SN Eos: najodleglejszą supernową, jaką kiedykolwiek potwierdzono spektroskopowo

21 stycznia 2026
Miggo Security omija zabezpieczenia Google Gemini poprzez zaproszenia z kalendarza

Miggo Security omija zabezpieczenia Google Gemini poprzez zaproszenia z kalendarza

21 stycznia 2026
Analityk Forrester: Sztuczna inteligencja nie poruszyła igły w kwestii globalnej produktywności

Analityk Forrester: Sztuczna inteligencja nie poruszyła igły w kwestii globalnej produktywności

20 stycznia 2026
Jak sztuczna inteligencja zbudowała złośliwe oprogramowanie VoidLink w zaledwie siedem dni

Jak sztuczna inteligencja zbudowała złośliwe oprogramowanie VoidLink w zaledwie siedem dni

20 stycznia 2026
OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

19 stycznia 2026
Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

15 stycznia 2026

Recent Posts

  • Barret Zoph poprowadzi agresywną działalność komercyjną OpenAI
  • Substack trafia do salonu wraz z uruchomieniem aplikacji beta TV
  • LiveKit, będący silnikiem trybu głosowego ChatGPT, wyceniany jest na 1 miliard dolarów
  • Vimeo rozpoczyna zwolnienia pracowników po przejęciu Bending Spoons
  • AWS i Prime Video uderzyły, gdy Amazon przygotowuje nową falę zwolnień

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.