Powstanie osadzonych Ml przekształca sposób interakcji urządzeń ze światem, przekraczając granice tego, co możliwe przy ograniczonych zasobach. Zastosowania te, od inteligentnych urządzeń do noszenia po czujniki przemysłowe, wymagają delikatnej równowagi między wydajnością, zużyciem energii i prywatnością.
Vladislav Agafonov, ekspert od uczenia maszynowego Meta Reality Labs UK (Wcześniej Oculus VR), ściśle rozumie te wyzwania.
„Uczenie maszynowe wbudowane jest zarówno fascynujące, jak i trudne, ponieważ uruchamiamy modele głębokiego uczenia się na urządzeniach o bardzo ograniczonej pamięci i mocy procesora”, powiedział Agafonov.
Jednym z najbardziej trwałych wyzwań, według Agafonova, jest optymalizacja modeli dla urządzeń o ograniczonej mocy obliczeniowej i pamięci.
„Najbardziej uporczywym wyzwaniem jest równoważenie dokładności modelu z ograniczoną pamięcią na chipie i ograniczoną mocą przetwarzania”, powiedział Agafonov.
Aby rozwiązać ten problem, kluczowe są techniki takie jak kwantyzacja i przycinanie. Kwantyzacja zmniejsza liczbę bitów używanych do przechowywania masy modelu, często z 32 bitów do 8 lub mniej, znacznie ograniczając zużycie pamięci. Z drugiej strony przycinanie usuwa niepotrzebne połączenia w sieci, zmniejszając rozmiar modelu i przyspieszając wnioskowanie.
„Zwracam również uwagę na funkcjonowanie Fusion, co oznacza połączenie wielu kroków w obliczeniach, aby uniknąć przechowywania dużych wyników pośrednich w pamięci”, powiedział Agafonov. „Podobnie korzystanie z bezpośredniego dostępu do pamięci (DMA) może pozwolić, aby dane czujnika przepływały prosto do silnika obliczeniowego bez dodatkowych kopii, pomagając zmniejszyć opóźnienie”.
Poprzez skrupulatnie profilowanie każdego etapu, mierzenie cykli, ślad pamięci i zużycie energii, inżynierowie mogą zoptymalizować tam, gdzie ma to znaczenie, dopasowując wyrafinowane modele w zaledwie kilkaset kilobajtów pamięci.
Przyspieszenie sprzętu i optymalizacja oprogramowania
Przyspieszenie sprzętu jest kolejnym kluczowym elementem osadzonego ML. Specjalistyczne układy, takie jak jednostki przetwarzania neuronowego (NPU) i jednostki przetwarzania tensora (TPU) obsługują równoległe przetwarzanie, drastycznie przyspieszając wnioskowanie sieci neuronowej przy jednoczesnym minimalizowaniu zużycia mocy.
„Przyspieszenie sprzętu jest absolutnie kluczowe dla uruchamiania wyrafinowanych modeli ML na wbudowanych urządzeniach” – powiedział Agafonov. „Ale w miarę ewolucji tych układów optymalizacja oprogramowania pozostaje równie ważna”.
Ramy takie jak Executorch mają na celu uproszczenie procesu rozwoju poprzez obsługę szczegółów niskiego poziomu, takie jak mapowanie obciążeń na różne akceleratory i wydajne zarządzanie pamięcią.
„Zamiast spędzać godziny, próbując optymalizować każdą część kodu dla każdego nowego układu, możesz polegać na frameworku, aby wykonać ciężkie podnoszenie”-powiedział Agafonov.
Pozwala to programistom skupić się na samych modelach uczenia maszynowego, a nie na zawiłości optymalizacji sprzętu.
Prywatność i nauka federacyjna
Prywatność jest coraz większym problemem, a wbudowany ML oferuje przewagę lokalnego przetwarzania danych.
„Jednym z głównych powodów osadzonych ML jest tak cenne, jest to, że dane mogą być przetwarzane bezpośrednio na urządzeniu, co zmniejsza, a nawet eliminuje potrzebę wysyłania poufnych informacji przez sieć”, powiedział Agafonov.
Federated Learning idzie tę koncepcję, umożliwiając urządzeniom szkolenie modeli lokalnie i udostępnianie tylko zagregowanych aktualizacji z serwerem centralnym.
„Zamiast gromadzić dane wszystkich w centralnej bazie danych, każde urządzenie trenuje model niezależnie za pomocą własnych informacji lokalnych”, powiedział Agafonov. „Następnie wysyła tylko„ aktualizację ”lub podsumowanie tego, czego się nauczył – a nie same surowe dane”.
Podejście to zwiększa prywatność, zapobiegając transmisji surowych danych użytkownika, szczególnie ważnych w delikatnych aplikacjach, takich jak zdrowie i osobiste urządzenia do noszenia.
Powstanie tinyml
Tinyml, zastosowanie uczenia maszynowego na wyjątkowo ograniczonych zasobach urządzeniach, takich jak mikrokontrolery, nabiera pędu.
„Pomyśl o małym chipie z zaledwie kilkaset kilobajtów pamięci, które nadal muszą obsługiwać zadania, takie jak klasyfikacja lub wykrywanie bez spuszczania baterii”, powiedział Agafonov.
Zastosowania takie jak monitorowanie środowiska i konserwacja predykcyjna przemysłowa są głównymi przykładami.
„Małe czujniki zasilane baterią mogą wykrywać określone dźwięki zwierząt lub zmiany jakości powietrza, a następnie przekazywać znaczące alerty bez marnowania energii na stałe przesyłanie strumieniowe danych”, powiedział Agafonov. „W przemyśle mikrokontrolery mogą wykryć wczesne oznaki awarii maszyn poprzez monitorowanie wibracji lub skoków temperaturowych, pomagając zapobiegać kosztownym awariom”.
Wzrost Tinyml jest napędzany postępami w sprzęcie i oprogramowaniu. Mikrokontrolery obejmują teraz wyspecjalizowane bloki przetwarzania, a lekkie ramy ML upraszczają optymalizację i wdrażanie modelu.
Wciągające doświadczenia i przyszłe trendy
W Meta Reality Labs wbudowany ML jest wykorzystywany do poprawy wciągających doświadczeń.
„Wykorzystujemy wbudowane ML, aby wciągające doświadczenia są bardziej naturalne i responsywne – pomyśl o szybkim rozpoznawaniu gestów na opasce, która pozwala kontrolować interfejsy AR lub VR bez dużych kontrolerów” – powiedział Agafonov.
Pozostają jednak problemy techniczne. „Jedną znaczącą przeszkodą jest równoważenie zużycia energii z potrzebą prawie instancji”-powiedział Agafonov. „Innym jest zapewnienie, że modele pozostają dokładne w każdym warunkach”.
Patrząc w przyszłość, Agafonov widzi kilka kluczowych trendów kształtujących przyszłość wbudowanego ML. Rosnące przyjęcie mikrokontrolerów z tinyml i ML, rozszerzenie przyspieszenia sprzętowego za pomocą specjalistycznych układów ML oraz rosnące wykorzystanie federalnego uczenia się w zakresie przetwarzania danych zachowania prywatności są przygotowane do zwiększenia innowacji w tej dziedzinie.
W miarę ewolucji wbudowanego ML zdolność do równoważenia władzy, prywatności i wydajności będzie miała kluczowe znaczenie dla odblokowania pełnego potencjału.