Microsoft podnosi poprzeczkę w świecie AI dzięki nowej serii Phi-3.5, oferując trzy najnowocześniejsze modele przeznaczone do różnych zadań. Te modele nie są tylko wydajne — są również wszechstronne, ułatwiając programistom radzenie sobie ze wszystkim, od podstawowego kodowania po złożone rozwiązywanie problemów, a nawet zadania wizualne. Niezależnie od tego, czy pracujesz z ograniczonymi zasobami, czy potrzebujesz zaawansowanych sztuczna inteligencja możliwości, modele Phi-3.5 mają coś do zaoferowania, a oto ich szybki przegląd.
Analiza modeli Phi-3.5 firmy Microsoft
Najnowsza wersja Microsoftu, seria Phi 3.5, wprowadza trzy zaawansowane modele AI: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct i Phi-3.5-vision-instruct. Każdy model jest stworzony tak, aby odpowiadać na konkretne potrzeby, od podstawowego rozumowania po zaawansowane zadania multimodalne.
Wszystkie trzy modele Microsoft Phi-3.5 są dostępne na licencji MIT, która pozwala deweloperom na używanie, modyfikowanie i dystrybucję modeli z minimalnymi ograniczeniami. To podejście open source wspiera powszechną adopcję i sprzyja innowacjom w różnych aplikacjach i dziedzinach badań.
Phi-3.5 Mini Instrukcja: Wydajny i kompaktowy
Ten Instrukcja Microsoft Phi-3.5 Mini model jest zaprojektowany tak, aby działać wyjątkowo dobrze w środowiskach o ograniczonych zasobach obliczeniowych. Z 3,8 miliarda parametrów jest dostosowany do zadań, które wymagają silnych zdolności rozumowania, ale nie wymagają rozległej mocy obliczeniowej. Wytrenowany na 3,4 biliona tokenów przy użyciu 512 procesorów graficznych H100-80G w ciągu 10 dni.
Najważniejsze cechy:
- Parametry: 3,8 miliarda
- Długość kontekstu: 128 tys. tokenów
- Główne przypadki użycia: Generowanie kodu, rozwiązywanie problemów matematycznych, rozumowanie oparte na logice
- Wydajność: Pomimo mniejszych rozmiarów, wykazuje konkurencyjną wydajność w wielojęzycznych i wieloetapowych zadaniach konwersacyjnych. Wyróżnia się w testach porównawczych, takich jak RepoQA, który mierzy zrozumienie kodu o długim kontekście, przewyższając inne podobne modele, takie jak Llama-3.1-8B-instruct.
Wydajna konstrukcja Phi-3.5 Mini Instruct pozwala na dostarczanie solidnej wydajności przy jednoczesnym uwzględnieniu ograniczeń zasobów. Dzięki temu nadaje się do wdrażania w scenariuszach, w których zasoby obliczeniowe są ograniczone, ale nadal wymagana jest wysoka wydajność.
Phi-3.5 MoE: Mieszanka architektur ekspertów
Ten Microsoft Phi-3.5 MoE (mieszanka ekspertów) model reprezentuje wyrafinowane podejście do architektury AI poprzez łączenie wielu wyspecjalizowanych modeli w jeden. Cechuje się unikalną konstrukcją, w której różni „eksperci” są aktywowani w zależności od zadania, optymalizując wydajność w różnych domenach. Wyszkolony na 4,9 biliona tokenów z 512 procesorami graficznymi H100-80G przez 23 dni.
Najważniejsze cechy:
- Parametry: 42 miliardy (aktywne), z czego 6,6 miliarda jest aktywnie wykorzystywanych w trakcie eksploatacji
- Długość kontekstu: 128 tys. tokenów
- Główne przypadki użycia: Zadania wymagające złożonego rozumowania, rozumienie kodu, rozumienie języków wielojęzycznych
- Wydajność: Model MoE sprawdza się wyjątkowo dobrze w zadaniach kodowych i matematycznych oraz wykazuje silne rozumienie wielojęzyczne. Często przewyższa większe modele w określonych testach porównawczych, w tym zauważalną przewagę nad GPT-4o mini w teście 5-shot MMLU (Massive Multitask Language Understanding).
Architektura Phi-3.5 MoE zwiększa skalowalność i wydajność, aktywując tylko podzbiór parametrów istotnych dla danego zadania. Dzięki temu model może obsługiwać szeroki zakres aplikacji, zachowując jednocześnie wysoką wydajność w różnych językach i tematach.
Instrukcja Phi-3.5 Vision: Zaawansowane możliwości multimodalne
Ten Instrukcja Microsoft Phi-3.5 Vision model jest zaprojektowany do obsługi danych tekstowych i graficznych, co czyni go potężnym narzędziem do zadań multimodalnej AI. Integruje zaawansowane przetwarzanie obrazu ze zrozumieniem tekstu, obsługując szereg złożonych zadań analizy wizualnej i tekstowej. Wyszkolony na 500 miliardach tokenów przy użyciu 256 procesorów graficznych A100-80G w ciągu 6 dni.
Najważniejsze cechy:
- Parametry: 4,15 miliarda
- Długość kontekstu: 128 tys. tokenów
- Główne przypadki użycia: Rozumienie obrazu, optyczne rozpoznawanie znaków (OCR), rozumienie wykresów i tabel, podsumowania wideo
- Wydajność: Model Vision Instruct, trenowany na połączeniu syntetycznych i filtrowanych publicznie dostępnych zbiorów danych, doskonale radzi sobie ze złożonymi, wieloklatkowymi zadaniami wizualnymi i umożliwia kompleksową analizę informacji wizualnych i tekstowych.
Możliwość przetwarzania i integrowania tekstu i obrazów przez Phi-3.5 Vision Instruct sprawia, że jest on niezwykle wszechstronny w zastosowaniach wymagających szczegółowej analizy wizualnej. Ta możliwość jest szczególnie cenna w przypadku zadań obejmujących różne typy i formaty danych.
Model Phi-3.5 Vision Instruct jest również dostępny poprzez Azure AI Studio.