Alibaba wydany QWEN3, rodzina modeli AI, które firma twierdzi, że pasuje, a czasem przewyższa najlepsze modele Google i OpenAi w poniedziałek. Modele wahają się od 0,6 miliarda parametrów do 235 miliardów parametrów i są dostępne do pobrania w ramach licencji „Otwórz” z platformy AI Dev Przytulanie twarzy I Github.
Modele QWEN3 są opisywane jako „hybrydowe”, ponieważ mogą poświęcić czas na „rozum” poprzez złożone problemy lub szybko odpowiedzieć na prostsze żądania. Ta zdolność rozumowania umożliwia modelom skuteczne sprawdzanie faktów, podobnie jak model O3 Openai, ale z wyższym opóźnieniem. Według zespołu QWen „płynnie zintegrowane tryby myślenia i nie myślą, oferując użytkownikom elastyczność kontrolowania budżetu myślenia”.
Niektóre modele QWEN3 przyjmują mieszankę architektury ekspertów (MOE), która może być bardziej wydajna obliczeniowo w przypadku zapytań. Moe rozkłada zadania na subtelnie i przekazuje je mniejszym, specjalistycznym „ekspertem”. Modele obsługują 119 języków i zostały przeszkolone na zestawie danych prawie 36 trylionów tokenów, w tym podręczników, par pytań, fragmentów kodu i danych generowanych przez AI.

Alibaba Twierdzi, że możliwości QWEN3 znacznie się poprawiły w porównaniu z jego poprzednikiem, QWEN2. Największy model QWEN3, QWEN-3-235B-A22B, wykonuje konkurencyjnie na temat oceny porównawczej, pokonując O3-Mini Openai i Google’s Gemini 2.5 Pro w Codeforces, platformie do programowania. Wyprzedza także O3-Mini w najnowszej wersji AIME, trudnego punktu odniesienia matematycznego i BFCL, testu oceny zdolności modelu do rozumowania problemów.

Podczas gdy QWEN-3-235B-A22B nie jest publicznie dostępny, największy publiczny model QWEN3, QWEN3-32B, jest nadal konkurencyjny z kilkoma zastrzeżonymi i otwartymi modelami AI. QWEN3-32B przewyższa model O1 Openai w kilku testach, w tym kodujący punkt odniesienia LiveCodeBench. Alibaba twierdzi, że QWEN3 wyróżnia się możliwościami wzywania narzędzi, zgodnie z instrukcjami i kopiowaniem określonych formatów danych.
Tuhin Srivastava, współzałożyciel i dyrektor generalny AI Cloud Host BaseTen, zauważył, że QWEN3 jest kolejnym przykładem otwartych modeli, które nadążyły na systemach zamkniętych, takich jak Openai. Dodał, że modele takie jak QWEN3 będą prawdopodobnie używane w kraju, pomimo ograniczeń amerykańskich dotyczących sprzedaży ChIP w Chinach.
QWEN3 jest dostępny do pobrania i za pośrednictwem dostawców chmur, w tym sztucznej inteligencji fajerwerków i hiperbolicznych.