Jabłko jest pozycjonowanie nowego MacBooka Pro z procesorem M5 jako znacznie wydajniejszą maszynę do uruchamiania i eksperymentowania z dużymi modelami językowymi, dzięki ulepszeniom zarówno platformy MLX, jak i wbudowanym w chip akceleratorom neuronowym GPU. Dla badaczy i programistów, którzy coraz częściej wolą pracować bezpośrednio na sprzęcie krzemowym Apple, firma przedstawia linię M5 jako znaczący krok naprzód w zakresie wydajności wnioskowania na urządzeniu, zwłaszcza w przypadku LLM i innych obciążeń zdominowanych przez operacje na macierzach. W centrum tych wysiłków znajduje się MLX, platforma macierzowa typu open source firmy Apple, zaprojektowana specjalnie pod kątem ujednoliconej architektury pamięci. MLX zapewnia interfejs podobny do NumPy do obliczeń numerycznych, obsługuje zarówno szkolenie, jak i wnioskowanie dla sieci neuronowych i pozwala programistom płynnie przełączać się między wykonaniem procesora i karty graficznej bez przemieszczania danych pomiędzy różnymi pulami pamięci. Działa na wszystkich systemach krzemowych Apple, ale najnowsza wersja beta systemu macOS odblokowuje nowy poziom akceleracji, wykorzystując dedykowane jednostki mnożenia macierzy wewnątrz procesora graficznego M5. Te akceleratory neuronowe są udostępniane za pośrednictwem TensorOps w Metal 4 i zapewniają MLX dostęp do wydajności, która według Apple ma kluczowe znaczenie w przypadku obciążeń zdominowanych przez duże mnożenia tensorów. Oprócz MLX znajduje się MLX LM, pakiet do generowania i dostrajania tekstu, który obsługuje większość modeli językowych hostowanych na Hugging Face. Użytkownicy mogą zainstalować go za pomocą pip, inicjować sesje czatu z terminala i kwantyzować modele bezpośrednio na urządzeniu. Podstawową funkcją jest kwantyzacja: konwersja modelu Mistral o parametrach 7B do modelu 4-bitowego zajmuje tylko sekundy, co radykalnie zmniejsza wymagania dotyczące pamięci, zachowując jednocześnie użyteczność na komputerach konsumenckich.
Obraz: JabłkoAby zaprezentować zalety M5, Apple przeprowadził testy porównawcze kilku modeli — w tym Qwen 1.7B i 8B (BF16), 4-bitowo kwantyzowane Qwen 8B i 14B oraz dwie architektury będące mieszanką ekspertów: Qwen 30B (aktywne 3B) i GPT-OSS 20B (MXFP4). Wyniki skupiają się na czasie do pierwszego tokena (TTFT) i szybkości generowania 128 dodatkowych tokenów z monitu zawierającego 4096 tokenów. Akceleratory neuronowe M5 znacznie poprawiają TTFT, skracając czas oczekiwania do poniżej 10 sekund w przypadku gęstego modelu 14B i poniżej 3 sekund w przypadku 30B MoE. Apple zgłasza przyspieszenie TTFT od 3,3x do 4x w porównaniu z poprzednią generacją M4. Późniejsza generacja tokenów — ograniczona przepustowością pamięci, a nie mocą obliczeniową — zapewnia mniejszy, ale stały wzrost o około 19–27%, co odpowiada 28% wzrostowi przepustowości M5 (153 GB/s w porównaniu do 120 GB/s na M4). Testy pokazują również, ile pojemności modelu mieści się w zunifikowanej pamięci. MacBook Pro 24 GB może obsługiwać model 8B w BF16 lub 30B MoE w wersji 4-bitowej z zapasem wolnego miejsca, co pozwala w obu przypadkach zachować całkowite wykorzystanie poniżej 18 GB. Apple twierdzi, że te same zalety akceleratorów wykraczają poza modele językowe. Na przykład generowanie obrazu w rozdzielczości 1024×1024 za pomocą FLUX-dev-4bit (parametry 12B) działa ponad 3,8 razy szybciej na M5 niż na M4. Ponieważ MLX w dalszym ciągu dodaje funkcje i poszerza obsługę modeli, firma obstawia, że coraz więcej społeczności badawczej ML będzie traktować krzem Apple nie tylko jako środowisko programistyczne, ale jako realną platformę wnioskowania i eksperymentów.





