Przez lata obietnica naprawdę inteligentnej, konwersacyjnej sztucznej inteligencji wydawała się nieosiągalna. Zadziwiło nas możliwości ChatGPT, Bliźniętai inne duże modele językowe (LLM) – pisanie wierszy, pisanie kodu, tłumaczenie języków – ale te wyczyny zawsze opierały się na ogromnej mocy obliczeniowej procesorów graficznych w chmurze. Teraz szykuje się cicha rewolucja, której celem jest przeniesienie tych niesamowitych możliwości bezpośrednio na urządzenie w Twojej kieszeni: LLM na Twoim smartfonie.
Ta zmiana nie dotyczy tylko wygody; chodzi o prywatność, wydajność i otwieranie nowego świata spersonalizowanych doświadczeń AI.
Jednak zmniejszenie tych ogromnych LLM, aby zmieściły się na urządzeniu z ograniczoną pamięcią i czasem pracy baterii, wiąże się z wyjątkowym zestawem wyzwań. Aby zrozumieć ten złożony krajobraz, rozmawiałem z Aleksiej Naumowgłówny inżynier ds. badań nad sztuczną inteligencją w firmie Tera Quantumwiodącą postacią w dziedzinie kompresji LLM.
Rzeczywiście, Naumov opublikował niedawno artykuł na ten temat, który jest ogłaszany jako niezwykła i znacząca innowacja w kompresji sieci neuronowych…TQCompressor: Udoskonalanie metod rozkładu tensora w sieciach neuronowych poprzez permutacje– podczas Międzynarodowej Konferencji IEEE na temat Przetwarzania i Wyszukiwania Informacji Multimedialnych (IEEE MIPR 2024), konferencji, na której badacze, naukowcy i specjaliści z branży spotykają się, aby prezentować i omawiać najnowsze osiągnięcia w technologii multimedialnej.
„Głównym wyzwaniem jest oczywiście ograniczona pamięć główna (DRAM) dostępna w smartfonach” – powiedział Naumov. „Większość modeli nie mieści się w pamięci smartfona, co uniemożliwia ich uruchomienie.”
Jako doskonały przykład podaje model Llama 3.2-8B firmy Meta.
„Wymaga około 15 GB pamięci” – powiedział Naumov. „Jednak iPhone 16 ma tylko 8 GB pamięci DRAM, a Google Pixel 9 Pro oferuje 16 GB. Co więcej, aby efektywnie obsługiwać te modele, potrzeba jeszcze więcej pamięci – około 24 GB, którą oferują urządzenia takie jak procesor graficzny NVIDIA RTX 4090 w cenach zaczynających się od 1800 dolarów”.
To ograniczenie pamięci nie dotyczy tylko przechowywania; wpływa to bezpośrednio na żywotność baterii telefonu.
„Im więcej pamięci wymaga model, tym szybciej wyczerpuje baterię” – powiedział Naumov. „8-miliardowy parametr LLM zużywa około 0,8 dżuli na token. W pełni naładowany iPhone o energii około 50 kJ może wytrzymać ten model jedynie przez około dwie godziny z szybkością 10 tokenów na sekundę, przy czym każde 64 tokeny zużywają około 0,2% baterii.
Jak więc pokonać te przeszkody? Naumov podkreśla znaczenie technik kompresji modeli.
„Aby rozwiązać ten problem, musimy zmniejszyć rozmiary modeli” – powiedział Naumov. „Istnieją dwa podstawowe podejścia: zmniejszenie liczby parametrów lub zmniejszenie pamięci wymaganej przez każdy parametr”.
Przedstawia strategie takie jak destylacja, przycinanie i rozkład macierzy w celu zmniejszenia liczby parametrów oraz kwantyzacja w celu zmniejszenia śladu pamięci każdego parametru.
„Przechowując parametry modelu w INT8 zamiast w FP16, możemy zmniejszyć zużycie pamięci o około 50%” – powiedział Naumov.
Chociaż urządzenia Google Pixel z TPU zoptymalizowanymi pod kątem TensorFlow wydają się idealną platformą do uruchamiania LLM, Naumov ostrzega, że nie rozwiązują one podstawowego problemu ograniczeń pamięci.
„Chociaż jednostki przetwarzające Tensor (TPU) stosowane w urządzeniach Google Pixel rzeczywiście oferują lepszą wydajność podczas uruchamiania modeli AI, co może prowadzić do szybszych prędkości przetwarzania lub mniejszego zużycia baterii, nie rozwiązują one podstawowego problemu, jakim są same wymagania dotyczące pamięci w nowoczesnych LLM , które zazwyczaj przekraczają pojemność pamięci smartfonów” – powiedział Naumov.
Dążenie do wprowadzenia LLM na smartfony wykracza poza zwykłe ambicje techniczne. Chodzi o ponowne przemyślenie naszej relacji ze sztuczną inteligencją i wyeliminowanie ograniczeń rozwiązań opartych na chmurze.
„Wiodące modele, takie jak ChatGPT-4, mają ponad bilion parametrów” – powiedział Naumov. „Jeśli wyobrazimy sobie przyszłość, w której ludzie w dużym stopniu będą polegać na programach LLM w zakresie zadań takich jak interfejsy konwersacyjne czy systemy rekomendacji, może to oznaczać, że około 5% dziennego czasu użytkowników będzie spędzać na interakcji z tymi modelami. W tym scenariuszu uruchomienie GPT-4 wymagałoby wdrożenia około 100 milionów procesorów graficznych H100. Sama skala obliczeniowa, nieuwzględniająca kosztów ogólnych komunikacji i transmisji danych, byłaby równoważna działaniu około 160 firm wielkości Meta. Taki poziom zużycia energii i związanej z nim emisji gazów cieplarnianych stwarzałby poważne wyzwania dla środowiska.”
Wizja jest jasna: przyszłość, w której sztuczna inteligencja zostanie płynnie zintegrowana z naszym codziennym życiem, zapewniając spersonalizowaną pomoc bez naruszania prywatności i zużywania baterii naszych telefonów.
„Przewiduję, że wiele aplikacji LLM opierających się obecnie na przetwarzaniu w chmurze przejdzie na przetwarzanie lokalne na urządzeniach użytkowników” – powiedział Naumov. „Ta zmiana będzie napędzana dalszym zmniejszaniem rozmiarów modeli oraz poprawą zasobów obliczeniowych i wydajności smartfonów”.
Maluje obraz przyszłości, w której możliwości LLM mogą stać się tak powszechne i intuicyjne, jak automatyczna korekta jest dzisiaj. To przejście może otworzyć wiele ekscytujących możliwości. Dzięki lokalnym LLM wyobraź sobie większą prywatność, w której Twoje wrażliwe dane nigdy nie opuszczają Twojego urządzenia.
Wyobraź sobie wszechobecną sztuczną inteligencję z funkcjami LLM zintegrowanymi z praktycznie każdą aplikacją, od wiadomości i poczty e-mail po narzędzia zwiększające produktywność. Pomyśl o wygodzie funkcji offline, umożliwiającej dostęp do pomocy AI nawet bez połączenia z Internetem. Wyobraź sobie spersonalizowane doświadczenia, podczas których LLM poznają Twoje preferencje i nawyki, aby zapewnić naprawdę dostosowane wsparcie.
Programistom chcącym eksplorować tę granicę Naumov oferuje praktyczne rady.
„Po pierwsze zalecam wybranie modelu, który najlepiej pasuje do zamierzonego zastosowania” – powiedział Naumov. „Hugging Face jest do tego doskonałym źródłem informacji. Szukajcie najnowszych modeli z 1-3 miliardami parametrów, gdyż tylko takie są obecnie możliwe do zastosowania w smartfonach. Dodatkowo spróbuj znaleźć skwantowane wersje tych modeli na Hugging Face. Społeczność AI zazwyczaj publikuje tam skwantowane wersje popularnych modeli.
Sugeruje również zbadanie narzędzi takich jak lama.cpp I bity i bajty do kwantyzacji modelu i wnioskowania.
Proces wprowadzenia LLM na smartfony jest wciąż na wczesnym etapie, ale potencjał jest niezaprzeczalny. W miarę jak badacze tacy jak Aleksei Naumov w dalszym ciągu przesuwają granice tego, co możliwe, stoimy u progu nowej ery mobilnej sztucznej inteligencji, w której nasze smartfony staną się naprawdę inteligentnymi towarzyszami, zdolnymi do zrozumienia naszych potrzeb i reagowania na nie w sposób, w jaki dotychczas dopiero zacząłem sobie wyobrażać.