Według najlepszych szacunków, na północ od 7000 języki są używane na całym świecie. Około Około 400 języków mają ponad milion użytkowników. Biorąc pod uwagę, że niektóre języki, zwłaszcza angielski, wydają się dominować cyfrowo, istnieje w rzeczywistości ogromne zapotrzebowanie na narzędzia, które mogą działać w różnych językach i wykonywać różnorodne zadania.
Sztuczna inteligencja i przetwarzanie języka naturalnego, gałąź informatyki, od dziesięcioleci pracują nad opracowaniem narzędzi, które mogą to zrobić. W ciągu ostatnich kilku lat pojawiło się wiele narzędzi opartych na wielojęzycznych modelach przetwarzania języka naturalnego (NLP). Modele te służą jako kamień z Rosetty dla ery informacji, umożliwiając komputerom płynne poruszanie się między językami. Nie tylko zapewniają tłumaczenia, ale także obsługują wiele aplikacji, takich jak analizy sentymentów i treści.
Dlatego wielojęzyczne NLP ma do odegrania ważną rolę w przyszłości. Może być używane do tłumaczenia maszynowego lub do analizowania postów w mediach społecznościowych w różnych językach w celu określenia nastrojów, które mogą być wykorzystane do informowania strategii marketingowych lub obsługi klienta. Wielojęzyczne NLP może również stanowić podstawę rekomendacji treści w usługach przesyłania strumieniowego lub udostępniać obsługę klienta w wielu językach. Może wspomagać analizę treści wiadomości lub umożliwiać tłumaczenie dokumentacji medycznej na dużą skalę. Krótko mówiąc, wiele zadań, które kiedyś mogły wydawać się niemożliwe — na przykład tłumaczenie dokumentacji medycznej francuskiego szpitala na angielski — jest możliwych dzięki wielojęzycznemu NLP.
Niektórzy widzą również wzrost wielojęzycznego NLP jako siłę demokratyzacji danych, czyniąc treści i usługi, które kiedyś były dostępne tylko w kilku językach, dostępnymi dla każdego. A wielojęzyczne NLP nadal się rozwija, nawet włączając dane nietekstowe.
O człowieku i maszynie: najnowsze osiągnięcia w zakresie wielojęzycznych architektur modeli
Przetwarzanie języka naturalnego ma głębokie korzenie. Angielski matematyk i informatyk Alan Turing opisał potencjał komputerów do generowania języka naturalnego w swoim przełomowym eseju z 1950 r. „Maszyny obliczeniowe i inteligencja.” NLP rozwijało się stabilnie w kolejnych dekadach, a wielojęzyczne NLP zaczęło się szybko rozwijać w latach 2000. Jednak niektóre z najbardziej znaczących postępów w architekturach modeli wielojęzycznych miały miejsce w ciągu ostatniej dekady.
Niektóre nazwy tych modeli są znane niemal każdemu, kto zajmował się tłumaczeniami. GłębokiLna przykład jest własnością DeepL SE z siedzibą w Kolonii w Niemczech i opiera się na własnym algorytmie połączonym z sieciami neuronowymi splotowymi, aby oferować tłumaczenie między 33 języki i dialekty. Po raz pierwszy uruchomiony w 2017 roku, jest to dobrze znany przykład wielojęzycznego przetwarzania języka naturalnego.
Oczywiście, jest też CzatGPTwprowadzony na rynek przez OpenAI z siedzibą w San Francisco i bazujący na podstawowym modelu Generative Pre-trained Transformer 3.5, który później został uaktualniony do wersji 4. GPT 3.5 i 4 to jedne z największych modeli językowych, trenowanych na ogromnych zbiorach danych, co umożliwia im badanie dużych ilości danych tekstowych, wychwytywanie złożonych wzorców w języku i generowanie wysokiej jakości tekstu.

To wielojęzyczne NLP zostało przyjęte masowo do tłumaczenia języków, analizy sentymentów i wielu innych celów. GPT 3.5 i GPT 4 zostały udostępnione za pośrednictwem API. W 2018 r. badacze z Google wprowadzili model językowy o nazwie Bidirectional Encoder Representations from Transformers lub (BERT). Model zawierał architekturę enkodera transformatorowego i jest używany przez firmę do lepszego zrozumienia wyszukiwań na jej platformie, a także do zwracania bardziej istotnych informacji w zapytaniach. Model jest trenowany za pomocą maskowanego przewidywania tokenów i przewidywania następnego zdania.
Różne powiązane modele wprowadziły innowacje w modelu BERT, takie jak: RoBERTaktóra modyfikuje hiperparametry, usuwa cel wstępnego trenowania następnego zdania i umożliwia trenowanie przy użyciu większych mini-partii.
Aby nie być gorszym, Facebook AI opublikował model o nazwie XLM-R w 2019 r.w którym wytrenowano wyżej wymienioną RoBERTa na wielojęzycznym zestawie danych składającym się z około stu języków pochodzących z zestawów danych CommonCrawl.
Naukowcy opisujący narzędzie zauważyli jego zdolność do dobrego działania w językach z mniejszymi zbiorami danych, takich jak suahili i urdu, z których oba mają dziesiątki milionów użytkowników. Zauważyli również jego działanie w rozumieniu międzyjęzykowym, gdzie model jest trenowany w jednym języku, a następnie używany w innym bez potrzeby dodatkowych danych treningowych.
Trwające wyzwania i proponowane rozwiązania
Chociaż wielojęzyczne NLP rozwijało się w szalonym tempie w ciągu ostatnich kilku lat, musi stawić czoła różnym przeszkodom. Jedną z nich jest po prostu różnorodność językowa.
Tworzenie takich modeli nie polega tylko na dostarczaniu płynnych tłumaczeń. Języki mogą się różnić regionalnie lub bardziej polegać na kontekście, a slang również może się zmieniać. Oznacza to, że modele NLP muszą być stale ulepszane, aby były trafne.
Co więcej, niektóre języki nie są po prostu dobrze reprezentowane pod względem komentarzy cyfrowych, a z tymi zestawami danych łatwiej jest trenować model. Mniejsze społeczności, które używają alfabetów innych niż łacińskie, na przykład, są szczególnie pomijane.
Trzecie i dość intrygujące wyzwanie wiąże się z przełączaniem kodów, w którym członkowie społeczności mogą przełączać się między językami. Pomyśl o angielskim poecie, który nagle cytuje coś obszernie po francusku lub japońskim pisarzu, który urozmaica swoją prozę odniesieniami do języka angielskiego. Jeśli model rozpoznaje język jako japoński, w jaki sposób radzi sobie z tymi angielskimi segmentami w tekście?
Istnieją również problemy związane z dostępem do zasobów i stronniczością. Biorąc pod uwagę zasoby obliczeniowe wymagane do osiągnięcia wielojęzycznych NLP, czy tylko najpotężniejsze firmy na świecie będą w stanie zgromadzić zasoby, aby je stworzyć? Czy istnieje sposób, aby uczynić je bardziej dostępnymi dla badaczy i organizacji? A jeśli zbiory danych faworyzują większe języki lub społeczności, w jaki sposób można zapewnić, że osoby mówiące mniejszymi językami będą dobrze reprezentowane?
Na koniec, istnieje również wszechobecny problem kiepskich danych. Badacze muszą twierdzić, że ich dane źródłowe dla niektórych języków mogą być niedokładne, co prowadzi do przekłamanych wyników.

Rozwiązania na całej linii opierają się na inwestowaniu większej ilości czasu w badania i współpracę. Naukowcy muszą pracować nad uzyskaniem lepszych danych z niedoreprezentowanych języków, jednocześnie ulepszając swoje modele. Niektórzy już zastosowali podejścia zero-shot i few-shot learning, aby poradzić sobie z sytuacjami, w których dla języka dostępnych jest niewiele danych.
Aby ograniczyć stronniczość, pracują również nad tworzeniem zróżnicowanych zestawów danych szkoleniowych i opracowywaniem metryk w celu zapewnienia uczciwości. Deweloperzy są również świadomi, że treść w jednym języku może być obraźliwa lub nieodpowiednia, jeśli jest źle renderowana w innym, i zajmują się tym problemem.
Jeśli chodzi o dostępność, pojawiły się modele na mniejszą skalę, aby rozwiązać problem zasobów. Niektóre z tych mniejszych modeli obejmują: Orca 2 firmy Microsoft I Phi 2EleutherAI GPT-J I GPT-Neooraz T5 Small, odchudzoną wersję narzędzia Google Text-to-Text Transfer Transformer (T5).
Przyszłość wielojęzycznego przetwarzania języka naturalnego
Podczas gdy twórcy gier szukają rozwiązań problemów, z jakimi borykają się modele obecnej generacji, pojawiają się innowacje, które całkowicie zmieniają możliwości tych modeli.
Multimodal Multilingual NLP zrobi to samo, przetwarzając inne rodzaje danych, takie jak obrazy lub inne dane audiowizualne, wraz z tekstem. Może potencjalnie analizować treść pod kątem mimiki twarzy lub tonu, na przykład, co może być wykorzystane do ulepszenia tłumaczenia maszynowego lub analizy sentymentów, dodając nowe wymiary danych do procesu przetwarzania.
Trwają również prace nad innowacjami mającymi na celu ulepszenie istniejących asystentów głosowych i wielojęzycznych chatbotów. Asystent głosowy Siri firmy Apple może obecnie odpowiadać na zapytania w około 25 języków i dialektówpodczas gdy Alexa firmy Amazon jest dostępny w dziewięciuDzięki wykorzystaniu wielojęzycznego przetwarzania języka naturalnego asystenci głosowi mogliby stać się dostępni dla milionów ludzi na całym świecie.
Podobnie, chatboty i wirtualnych agentów można udoskonalić, nie tylko pod względem treści, ale również poprzez uczynienie ich odpowiedzi bardziej kontekstowymi i konkretnymi w stosunku do zapytania danej osoby, co z kolei poprawi doświadczenia użytkownika.
W miarę rozwoju technologii wielojęzyczne NLP będzie się rozszerzać poza tłumaczenia, analizę sentymentów i inne bieżące zastosowania, obejmując szersze zastosowania. Na przykład narzędzia do edukacji online mogą być łatwiej dostępne w różnych językach.
Firmy mogą udoskonalić swoje badania, dotrzeć do większej liczby klientów i lepiej służyć lokalnym rynkom niż obecnie, a wszystko to dzięki wielojęzycznemu NLP. Krótko mówiąc, to wciąż wczesne dni dla wielojęzycznego NLP. Biorąc pod uwagę szybkość rozwoju, przyszłość nadejdzie wystarczająco szybko.
Źródło wyróżnionego obrazu: Freepik