Duże modele językowe (LLM) są obchodzone ze względu na ich wielojęzyczne możliwości, ale jak faktycznie przetwarzają języki nieanglojęzyczne? Ostatnie badanie zatytułowane „Czy wielojęzyczne LLM myślą w języku angielskim?„Lisa Schut, Yarin Gal i Sebastian Farquhar z University of Oxford i Google Deepmind sugeruje, że LLM mogą być bardziej skoncentrowane na angielskim niż wcześniej. Ich ustalenia pokazują, że niezależnie od języka wejściowego lub wyjściowego modele te mają tendencję do rozumowania w wewnętrznej przestrzeni reprezentacji najbliższej angielskiej przed przełożeniem ich myśli na język docelowy.
Proces myślowy zorientowany na angielski
LLM są szkolone w zakresie ogromnych ilości danych wielojęzycznych, ale dominujący język w ich korpusie szkoleniowym często decyduje o tym, jak ustrukturyzują informacje wewnętrznie. W badaniu przeanalizowano wiele modeli open source, w tym LLAMA-3.1-70B, Mixtral-8x22b, Gemma-2-27b i AYA-23-35Baby zbadać, czy te systemy przetwarzają znaczenie w sposób aagnostyczny języka, czy też nie można one domyślnie skoncentrować się na angielskiej przestrzeni reprezentacyjnej.
Przy użyciu techniki zwanej Logit obiektywnaukowcy zdekodowali ukryte przedstawienia tych modeli i odkryli uderzający wzór: podczas generowania tekstu w językach nieanglojęzycznych, pierwsza mapa LLMS semantycznie istotne słowa (takie jak rzeczowniki i czasowniki) do swoich angielskich odpowiedników przed przekształceniem ich w język docelowy. Zjawisko to zaobserwowano w wielu językach, w tym francuskich, niemieckich, holenderskich i mandarynkach.
Na przykład, gdy model otrzymał zdanie francuskie „Le Bateau Naviguait en Douceur Sur L’EaU” („Łódź płynnie popłynęła na wodzie”), wewnętrzne przedstawienia pokazały, że słowa takie jak woda I łódź zostały najpierw zmapowane na ich angielskie znaczenia, zanim zostali przetłumaczeni na francuski. Jednakże, elementy gramatyczne Takie jak przyimki i determinery pozostały w oryginalnym języku, co sugeruje, że tylko semantycznie załadowane słowa przetwarzają to przetwarzanie zorientowane na angielski.
AI obsługuje teraz symulacje molekularne: dzięki mdcrow
Eksperyment wektora sterującego
Kolejny kluczowy eksperyment w badaniu dotyczy Aktywacja sterowanietechnika stosowana do manipulowania odpowiedziami LLM poprzez naruszanie ich w kierunku określonych pojęć. Naukowcy odkryli, że wektory sterujące-reprezentacje matematyczne, które kierują podejmowaniem decyzji modelu-były znacznie bardziej skuteczne, gdy są obliczane w języku angielskim niż w języku wejściowym lub wyjściowym. To dodatkowo potwierdza ideę, że podstawowe rozumowanie modelu występuje w przestrzeni dostosowanej do angielskiego.
Na przykład, gdy LLM został poproszony o napisanie wyroku o zwierzętach po niemiecku, model reagował bardziej konsekwentnie, gdy wektor sterujący pochodzi od angielskiego słowa zwierzę zamiast jego niemieckiego odpowiednika Szczebel. Sugeruje to, że nawet gdy modele wytwarzają biegły tekst nieanglojęzyczny, ich podstawowa logika pozostaje powiązana z reprezentacjami angielskimi.
Anglicy ma charakter LLM Zarówno zalety, jak i wady. Z jednej strony umożliwia dobrze działanie w wielu językach, mimo że są szkolone głównie na podstawie danych angielskich. Z drugiej strony wprowadza uprzedzenia i ograniczenia:
- Niższa płynność w językach nieanglojęzycznych: Modele przeszkolone ze strukturą zorientowaną na angielski mają tendencję do wytwarzania nienaturalnych zdań przy generowaniu tekstu w innych językach. Może to sprawić, że ich wyjściowe brzmienie pst., Szczególnie w językach o znacząco innej składni i gramatyce.
- Stronniczość kulturowa i językowa: Ponieważ wewnętrzna struktura preferuje angielski, niektóre języki mogą być niedostatecznie reprezentowane, co prowadzi do niesprawiedliwych wad w wydajności. Poprzednie badania już podkreśliły Uprzedzenia skoncentrowane na Zachodzie W modelach AI i to badanie dodaje kolejną warstwę do problemu.
- Artefakty tłumaczeniowe: Ponieważ modele tłumaczą swoje wewnętrzne myśli z angielskiego, mogą generować niezręczne frazowanie lub błędy Podczas pracy z językami, które nie mają bezpośrednich angielskich odpowiedników dla niektórych słów lub wyrażeń.
Czy wszystkie LLM wykazują to zachowanie?
Co ciekawe, nie wszystkie modele wykazywały ten sam stopień przetwarzania zorientowanego na angielski. AYA-23-35B, model wyszkolony na 23 językach, pokazał najmniejszą ilość angielskiego routingumając na uwadze, że GEMMA-2-27B, przeszkolony przede wszystkim na angielskim, pokazał najwięcej. Sugeruje to, że stopień wielojęzycznej biegłości wpływa bezpośrednio na to, czy model opiera się na reprezentacjach angielskich.
Dodatkowo, Mniejsze modele wykazywały większą tendencję do domyślnego języka angielskiego, prawdopodobnie ze względu na ich ograniczoną zdolność do wydajnego przechowywania wielojęzycznych osadzonych. Większe modele, z większą liczbą parametrów i danych treningowych, wydają się nieco lepiej zrozumieć wielojęzyczną semantykę, chociaż angielskie uprzedzenia nadal pozostają.
Czy LLM mogą naprawdę myśleć wielojęzycznie?
Wyniki badania kwestionują założenie, że LLMS działają naprawdę w Język-anostyczny sposób. Zamiast tego sugerują, że wielojęzyczna AI jest nadal zasadniczo ukształtowany przez dominujący język w korpusie szkoleniowym. Rodzi to ważne pytania dla programistów i badaczy AI:
- Czy szkolenie zestawów danych powinien zostać zrestrukturyzowane w celu promowania bardziej zrównoważonych reprezentacji wielojęzycznych?
- Jak możemy złagodzić angielskie uprzedzenia, aby poprawić płynność i uczciwość w różnych językach?
- Czy istnieją alternatywne architektury, które mogłyby lepiej kodować reprezentacje niezależne od języka?
Zwracanie się do Stronniczość angielskiego w LLM będzie miało kluczowe znaczenie dla prawdziwego rozwoju wielojęzyczne, świadome kulturowo systemy. Naukowcy sugerują potencjalne ulepszenia, takie jak:
- Szkolenie na temat bardziej zróżnicowanych danych: Uwzględnienie szerszego zakresu języków podczas pretrenowania może pomóc LLM w opracowaniu bardziej zrównoważonej przestrzeni reprezentacyjnej.
- Zwiększenie kierowania krzyżowego: Opracowanie lepszych metod sterowania LLM w językach nieanglojęzycznych może poprawić ich wydajność w różnych kontekstach językowych.
- Odkrywanie nowych architektur: Przyszłe modele AI mogą zawierać mechanizmy decentralizuj reprezentacje językowezapewnienie procesów rozumowania i decyzyjnego Prawdziwie język-agnostyk.
Na razie jedno jest jasne: chociaż wielojęzyczna sztuczna inteligencja poczyniła imponujące postępy, sposób, w jaki „myśli” jest nadal głęboko związany z angielskim. Zrozumienie tego uprzedzenia jest pierwszym krokiem w kierunku tworzenia sprawiedliwych, bardziej skutecznych systemów AI dla globalnych użytkowników.
Wyróżniony obraz obrazu: Kerem Gülen/Ideogram