Apple MM1 to nie chip, ale multimodalna sztuczna inteligencja

W dyskretnym posunięciu zespół badawczy Apple to zrobił opublikował dokument rzucające światło na postępy firmy w zakresie MM1, zestawu zaawansowanych wielomodalnych modeli wielojęzycznych. Modele te zaprojektowano do różnych zastosowań, w tym do wnioskowania w języku naturalnym, podpisów obrazów i wizualnego odpowiadania na pytania. To odkrycie wskazuje, że Apple, tradycyjnie powściągliwy w stosunku do swoich przedsięwzięć w zakresie sztucznej inteligencji, podczas gdy jego konkurenci wychwalali sztuczną inteligencję jako przyszłość technologii, nie tylko nadrabia zaległości, ale także jest gotowy narzucić tempo w branży.

Jaki jest zasięg Apple MM1?

„W tej pracy omawiamy budowanie wydajnych wielomodalnych modeli wielkojęzykowych (MLLM). Wykazujemy, że w przypadku multimodalnego szkolenia wstępnego na dużą skalę zastosowanie starannego połączenia podpisów pod obrazami, przeplatanych obrazów i danych tekstowych ma kluczowe znaczenie dla osiągnięcia najnowocześniejszych wyników kilku zdjęć w wielu testach porównawczych do innych opublikowanych wyników przedtreningowych” – czytamy w dokumencie.

W dokumencie szczegółowo opisano MM1, charakteryzując go jako solidny zestaw modeli multimodalnych, zdolnych obsłużyć do 30 miliardów parametrów. Podkreśla ich wyjątkową wydajność, dostosowaną do szeregu multimodalnych testów porównawczych, pozycjonując te modele w czołówce podstawowych technologii sztucznej inteligencji. Według zespołu Apple multimodalne modele dużych języków (MLLM) stanowią znaczący krok w ewolucji w stosunku do tradycyjnych modeli LLM i oferują zwiększone możliwości.

Naukowcy z Apple są przekonani, że osiągnęli znaczący kamień milowy w uczeniu modeli interpretacji zarówno obrazów, jak i tekstu. Przewidują, że ich spostrzeżenia znacząco pomogą społeczności w opracowywaniu modeli, które będą w stanie wydajniej i niezawodnie obsługiwać coraz większe zbiory danych. Jednak pomimo obiecujących spostrzeżeń przedstawionych w artykule, praktyczne zastosowanie i testowanie Apple MM1 pozostają na horyzoncie, a dostęp do samego modelu nie został jeszcze udostępniony do zewnętrznej oceny.

jabłko mm1 — Naukowcy z Apple są przekonani, że osiągnęli znaczący kamień milowy w uczeniu modeli interpretacji zarówno obrazów, jak i tekstu (Kredyt obrazu)

Przyszłość przedsięwzięcia Apple w zakresie dużych modeli językowych, w szczególności MM1, wisi pod znakiem zapytania ze względu na spekulacje dotyczące opracowania przez firmę platformy LLM nazwanej wewnętrznie „Ajax” w ramach ambitnej inwestycji o wartości 1 miliarda dolarów w badania i rozwój sztucznej inteligencji. Dolewając oliwy do tego ognia, krążyły pogłoski o przejęciu przez Apple start-upu DarwinAI na początku tego roku, co rzekomo miało na celu wzmocnienie tych wysiłków.

Dyrektor generalny Apple, Tim Cook, podczas lutowej rozmowy telefonicznej po ogłoszeniu wyników przerwał całoroczne milczenie firmy na temat ambicji w zakresie sztucznej inteligencji, stwierdzając:

„Postrzegamy sztuczną inteligencję i uczenie maszynowe jako podstawowe technologie, które stanowią integralną część praktycznie każdego dostarczanego przez nas produktu. Cieszymy się, że jeszcze w tym roku będziemy mogli podzielić się szczegółami naszej bieżącej pracy w tym miejscu.”

Co więcej, Apple zaprezentowało niedawno możliwości AI swojego nowego MacBooka Air M3, wskazując na znaczącą rolę, jaką sztuczna inteligencja będzie odgrywać w jego przyszłych ofertach. W strategicznym momencie firma zdecydowała się rozwiązać Projekt Tytan w zeszłym miesiącu, przekierowując swoją uwagę na rozwijające się obszary, takie jak sztuczna inteligencja, sygnalizując ponowną kalibrację swoich priorytetów w zakresie innowacji.

Autor wyróżnionego obrazu: Kerem Gülen/Midjourney