MAI-Image-1 to debiut Microsoftu jako samodzielnego twórcy obrazów AI

Microsoftu ogłoszony MAI-Image-1, pierwszy model generowania obrazu opracowany całkowicie we własnym zakresie. Model będzie dostępny w Copilot i Bing Image Creator „już wkrótce”, a obecnie można go testować na platformie LMArena platformę, na której początkowo przeprowadzono testy porównawcze. Opracowując MAI-Image-1, Microsoft stwierdził, że jego zespół skupił się na unikaniu powtarzających się lub ogólnie stylizowanych wyników. „Na przykład nadaliśmy priorytet rygorystycznej selekcji danych i szczegółowej ocenie skupionej na zadaniach, które ściśle odzwierciedlają rzeczywiste przypadki kreatywnego użycia” – wyjaśniono w oświadczeniu firmy. W procesie rozwoju uwzględniono także bezpośrednie informacje zwrotne od profesjonalistów pracujących w branżach kreatywnych, które pozwoliły określić możliwości modelu i ogólne udoskonalenie. LMArena, platforma używana do testów, polega na tym, że użytkownicy zadają pytania dwóm anonimowym chatbotom, a następnie głosują na najlepszą odpowiedź, aż do wyłonienia zwycięzcy. Według doniesień model doskonale radzi sobie z generowaniem krajobrazów i fotorealistycznych obrazów. Jego szczególne zalety obejmują dokładne uchwycenie skomplikowanych szczegółów związanych z oświetleniem, cieniami i odbiciami w wygenerowanej scenie. Microsoft zauważył, że ten wysoki poziom wydajności jest szczególnie widoczny „w porównaniu z wieloma większymi, wolniejszymi modelami”, co wskazuje, że w jego konstrukcji położono nacisk na wydajność obliczeniową. Ta funkcja pozycjonuje go jako narzędzie do tworzenia szczegółowych i realistycznych treści wizualnych. W tabeli liderów konwersji tekstu na obraz LMArena MAI-Image-1 osiągnął 9. miejsce z wynikiem 1096 punktów. Dla porównania, Google Gemini-2.5-Flash, znany również jako Nano-Banana, zapewnił sobie drugie miejsce z 1154 punktami, podczas gdy model OpenAI uplasował się na 7. miejscu z 1123 punktami. Na czele tabeli liderów znajduje się obecnie Hunyuan-image-3.0, model sztucznej inteligencji opracowany przez chińską firmę technologiczną Hunyuan. Stworzenie MAI-Image-1 jest częścią szerszej, wewnętrznej inicjatywy AI w firmie Microsoft. Firma opracowała także inne własne modele, w tym MAI-Voice-1 do generowania mowy naturalnej oraz serię małych modeli językowych Phi, które zostały zaprojektowane z myślą o wydajnym wykonywaniu zadań związanych z rozumowaniem. Ten wewnętrzny rozwój odbywa się równolegle z ciągłym wsparciem firmy dla OpenAI, które obejmuje zapewnienie zarówno wsparcia finansowego, jak i niezbędnej infrastruktury dla jej odrębnych wysiłków na rzecz rozwoju modeli. The Generowanie obrazu AI dziedzina ta przeżywa okres wzmożonej aktywności. Model OpenAI zyskał już wcześniej uwagę wirusów dzięki uderzającej imitacji stylu graficznego Studio Ghibli, podczas gdy Google Nano-Banana ustanowił nowy punkt odniesienia dzięki swoim potężnym możliwościom edycji AI. Korzystając z LMArena, AIM przeprowadził bezpośrednie porównanie MAI-Image-1 firmy Microsoft, Gemini-2.5-Flash firmy Google i GPT-image-1 OpenAI. Modele testowano za pomocą podpowiedzi przedstawiającej „dwie osoby w kawiarni przy oknie późnym popołudniem”. Ten konkretny test miał na celu ocenę, jak dobrze każdy model radzi sobie z mieszanym oświetleniem, odbiciami i realizmem cieni. Użytkownicy mogą przesyłać podobne podpowiedzi na platformie LMArena, aby samodzielnie przetestować te modele.

Autor wyróżnionego obrazu

No Result