Firma Meta ogłosiła wydanie produkcyjne Llama 3.2, bezprecedensowego zbioru darmowych i otwartych modeli sztucznej inteligencji, których celem jest elastyczne i wydajne kształtowanie przyszłości sztucznej inteligencji maszyn.
Ponieważ przedsiębiorstwa poszukują apokaliptycznych rozwiązań AI, które mogą działać na najpowszechniejszym sprzęcie lub na tych, które są popularne w celu opracowywania rozwiązań zarówno dla dużych firm, jak i niezależnych podmiotów, Llama 3.2 oferuje nowe modele.
Llama 3.2 skupia się na urządzeniach brzegowych i mobilnych
Nacisk na przewagę i mobilność jest czymś, co jest bardzo widoczne w Meta.
Jeśli chodzi o nowości w tej wersji, twórcy dodali małe i średnie pola widzenia LLM: 11B i 90B, a także wprowadzili alternatywy czysto tekstowe, 1B i 3B.
W szczególności nowe modele wprowadzone tutaj są dostosowane do obsługi urządzeń brzegowych, dzięki czemu technologia AI jest dostępna dla większej liczby klientów. Lekkie modele tekstowe, zwłaszcza te bez danych wizualnych, są przeznaczone do prostszych zadań, takich jak podsumowanie i przestrzeganie instrukcji, ze względu na niską moc obliczeniową.
Ze względu na centralne przetwarzanie danych na urządzeniach mobilnych i lokalne wykonywanie, żadne dane nie są przesyłane do chmury, jak podaje Meta,
„Uruchamianie lokalne na urządzeniach mobilnych zapewnia, że dane pozostają na urządzeniu, zwiększając prywatność użytkownika poprzez unikanie przetwarzania w chmurze”
Ta możliwość jest szczególnie przydatna w przypadku aplikacji przetwarzających poufne dane, ponieważ umożliwia aplikacji wykonywanie ważnych zadań przy jednoczesnym zachowaniu poufności danych. Na przykład użytkownicy mogą odpowiadać na wiadomości osobiste, podsumowując je, lub pobierać elementy listy zadań do wykonania ze spotkań bez przekazywania wiadomości na serwery zewnętrzne.
Postęp w architekturze modeli
Najważniejszą zmianą w Llama 3.2 są różne ulepszenia architektoniczne. Nowe modele wykorzystują architekturę opartą na adapterze, która może łączyć kodery obrazów z wstępnie wytrenowanymi modelami tekstowymi bez modyfikacji. Ta integracja prowadzi do ulepszeń w zdolności rozumowania zarówno w obszarach tekstowych, jak i obrazowych i znacznie rozszerza zakres zastosowań tych modeli.
Powstałe wstępnie wytrenowane modele poddano rygorystycznym ćwiczeniom dostrajania, które obejmowały wykorzystanie ogromnych, zaszumionych danych dotyczących par obraz-tekst.
Llama 3.2 11B i 90B obejmują obsługę szeregu zadań multimodalnych. Te możliwości umożliwiają scenariusze, takie jak podpisywanie obrazów w celu ułatwienia dostępu, dostarczanie spostrzeżeń w języku naturalnym na podstawie wizualizacji danych i wiele innych. pic.twitter.com/8kwTopytaf
— AI w Meta (@AIatMeta) 25 września 2024 r.
Istnieje jeden ważny dodatek do długości kontekstu tokena, który zwiększył się do bardzo imponującego poziomu 128 tys. dla lekkich modeli 1B i 3B. Ułatwia szersze przesyłanie danych, co jest szczególnie cenne w przypadku długich dokumentów i skomplikowanego myślenia.
Możliwość obsługi tak dużych rozmiarów danych wejściowych stawia Llamę 3.2 w uprzywilejowanej pozycji w stosunku do konkurentów na dynamicznym rynku sztucznej inteligencji, na którym dominują Modele GPT OpenAI.
A co z parametrami wydajności?
Modele Llama 3.2 wykazały się wyjątkowymi wskaźnikami wydajności, co jeszcze bardziej umocniło ich przewagę konkurencyjną na rynku. Model 1B uzyskał wynik 49,3 w teście MMLU, podczas gdy model 3B uzyskał wynik 63,4. Jeśli chodzi o wizję, modele 11B i 90B pokazały swoje możliwości, uzyskując odpowiednio 50,7 i 60,3 w zadaniach rozumowania wizualnego.
Oceniając wydajność za pomocą obszernych testów i testów porównawczych przeprowadzanych przez ludzi, wyniki sugerują, że modele widzenia Llama 3.2 są konkurencyjne w stosunku do wiodących modeli zamkniętych w zakresie rozpoznawania obrazów i szeregu zadań związanych ze zrozumieniem obrazu. fot.twitter.com/QtOzExBcrd
— AI w Meta (@AIatMeta) 25 września 2024 r.
Te dane wskazują, że modele Llama 3.2 nie tylko dorównują, ale często przewyższają wydajnością podobne oferty innych firm, takich jak Klaudiusz 3 Haiku I GPT4o-mini.
Zintegrowanie technologii UnslothAI zwiększa również wydajność tych modeli, umożliwiając dwukrotnie szybsze dostrajanie i wnioskowanie, przy jednoczesnej redukcji użycia pamięci VRAM o 70%. To udoskonalenie jest kluczowe dla programistów, którzy chcą wdrażać rozwiązania AI w czasie rzeczywistym, nie mierząc się z ograniczeniami sprzętowymi.
Współpraca i wsparcie ekosystemu
Jednym z kluczowych czynników, które definiują gotowość Llama 3.2 do wprowadzenia na rynek, jest dobrze rozwinięty ekosystem. Partnerstwa z innymi liderami branży mobilnej, takimi jak Qualcomm, MediaTek i AWS, umożliwiają deweloperom implementację tych modeli w różnych ustawieniach, środowiskach chmurowych i urządzeniach lokalnych.
Ten Stos lamy Dystrybucje takie jak Llama Stack do instalacji na urządzeniu i Llama Stack do instalacji na pojedynczym węźle oferują rozwiązania, z których deweloperzy mogą korzystać i wbudowywać te modele w swoje projekty bez dodatkowych komplikacji.
Lekkie modele Llama 3.2, które są dziś dostępne w sprzedaży, obsługują: @Ramię, @MediaTek & @Qualcomm aby umożliwić społeczności programistów tworzenie efektywnych aplikacji mobilnych już od pierwszego dnia. fot.twitter.com/DhhNcUviW7
— AI w Meta (@AIatMeta) 25 września 2024 r.
Jak korzystać z Meta Llama 3.2?
Najnowsza wersja modelu AI opartego na otwartym kodzie źródłowym, Llama 3.2, jest już dostępna na Strona internetowa Meta Llamaoferując ulepszone możliwości dostosowywania, dostrajania i wdrażania na różnych platformach.
Deweloperzy mogą wybierać spośród czterech rozmiarów modeli: 1B, 3B, 11B i 90B lub nadal korzystać z wcześniejszego Lama 3.1.
Meta nie tylko udostępnia te modele na wolności; zależy im na tym, aby deweloperzy mieli wszystko, czego potrzebują, aby skutecznie wykorzystać Llama 3.2. To zobowiązanie obejmuje udostępnianie cennych narzędzi i zasobów, aby pomóc deweloperom w odpowiedzialnym budowaniu. Poprzez ciągłą aktualizację najlepszych praktyk i angażowanie się w społeczność open-source, Meta ma nadzieję inspirować innowacje, jednocześnie promując etyczna sztuczna inteligencja stosowanie.
„Z przyjemnością kontynuujemy rozmowy z naszymi partnerami i społecznością open-source. Jak zawsze nie możemy się doczekać, aby zobaczyć, co społeczność stworzy, korzystając z Llama 3.2 i Llama Stack”
Meta stwierdziła.
To podejście oparte na współpracy nie tylko zwiększa możliwości Llama 3.2, ale także zachęca do tworzenia dynamicznego ekosystemu. Niezależnie od tego, czy chodzi o lekkie rozwiązania brzegowe, czy bardziej złożone zadania multimodalne, Meta ma nadzieję, że nowe modele zapewnią elastyczność potrzebną do spełnienia zróżnicowanych wymagań użytkowników.
Źródła obrazów: Meta