GPT-4.1 oficjalnie obszarniczy W API Openai, wprowadzając trio modeli-GPT-4.1, GPT-4.1 Mini i GPT-4.1 Nano-które przewyższają ich poprzedników w prawie każdym wymiarze. Modele te są przeznaczone dla programistów, którzy potrzebują lepszych umiejętności kodowania, silniejszych instrukcji i ogromnego zrozumienia długiego kontaktu, jednocześnie zmniejszając opóźnienie i koszty. Flagowy model obsługuje teraz do 1 miliona tokenów kontekstu i zawiera nową granicę wiedzy w czerwcu 2024 r.
Co nowego w GPT-4.1?
Rodzina GPT-4.1 jest bezpośrednim aktualizacją w stosunku do GPT-4O i GPT-4.5, oferując lepszą wydajność w zakresie testów porównawczych, jednocześnie optymalizując stosowanie programistów w świecie rzeczywistym. GPT-4.1 wynika 54,6% na sWeryfikowaliśmyczyniąc go jednym z najlepszych modeli do kodowania zadań. Na skali Multichallenge Benchmarkwidzi 10,5% bezwzględną poprawę w stosunku do GPT-4O w instrukcji. W przypadku długich zadań kontekstowych wyznacza nowy najnowocześniejszy wynik 72% Benchmark wideo-MME.
Modele są również zoptymalizowane na krzywej opóźnienia. GPT-4.1 MINI zapewnia prawie taką samą wydajność jak GPT-4O, jednocześnie zmniejszając opóźnienie w pół i zmniejszając koszty o 83%. GPT-4.1 Nano to najszybszy i najszybszy jak dotąd model Openai, zbudowany do klasyfikacji i zadań autocomplete, jednocześnie obsługując 1 milion tokenowych okien kontekstowych.
Możliwości kodowania wykonują skok
Od generowania czystszych interfejsów frontendowych po bardziej niezawodnie śledzące formaty różnicowe, GPT-4.1 okazuje się być wysoce zdolnym asystentem kodowania. Na weryfikowanym przez SWE Benchmark poprawnie wykonuje ponad połowę zadań-z 33,2% z GPT-4O. Preferuje także GPT-4O, a nawet GPT-4.5 na Benchmark Polyglot Diff, oferując precyzyjne edycje programistów w wielu językach programowania bez przepisywania całego plików. W przypadku przepisywania poziomu pliku limity tokenów wyjściowych zostały rozszerzone do 32 768 tokenów.
W porównaniach wewnętrznych witryny GPT-4.1 były preferowane w 80% przypadków niż wyniki GPT-4O. Zewnętrzne edyty kodu spadły z 9% do zaledwie 2%, odzwierciedlając lepsze zrozumienie kontekstu i użycie narzędzi.
Wczesni użytkownicy podkreślają zwycięstwa w świecie rzeczywistym
Windsurf zgłosił 60% poprawę wewnętrznych testów porównawczych, podczas gdy Qodo stwierdził, że GPT-4.1 zapewnił lepsze sugestie w 55% żądań Pull. Te ulepszenia przekładają się bezpośrednio na lepszą dokładność przeglądu kodu, mniej niepotrzebnych sugestii i szybszych cykli iteracji dla zespołów.
Ostrzejsze instrukcje śledzące scenariusze
GPT-4.1 działa znacznie lepiej pod względem niezawodności instrukcji. Oceni 87,4% na IFEVAL i 38% w zakresie testu porównawczego Multichallenge, prezentując korzyści w obsłudze złożonych formatów, odrzucając zakazane instrukcje oraz sortowanie lub ranking wyjściowych. Własna ocena Openai wykazała, że GPT-4.1 jest bardziej precyzyjna w przypadku twardych podpowiedzi i lepiej w śledzeniu instrukcji wielu obrotów, co jest istotną funkcją budowania wiarygodnych systemów konwersacyjnych.
Blue J, jak i Hex przetestowały GPT-4.1 w stosunku do zadań specyficznych dla domeny. Blue J odnotował 53% poprawy dokładności w złożonych scenariuszach podatkowych, podczas gdy Hex zgłosił prawie dwukrotność wyników w zadaniach SQL, zmniejszając koszty ogólne i poprawiając wolność produkcji.
1 milion tokenów okienko ustawia nowy pasek
Wszystkie trzy modele w rodzinie GPT-4.1 obsługują teraz do 1 miliona tokenów kontekstu-ponad 8-krotność bazy kodeksu React. Umożliwia to potężne nowe przypadki użycia w analizie dokumentów prawnych, badaniach finansowych i długich przepływach pracy oprogramowania. W teście „Igle w stogu siana” Openai GPT-4.1 niezawodnie odzyskał odpowiednie treści, niezależnie od tego, gdzie się pojawił na wejściu.
Benchmark Openai-MRCR dodatkowo to potwierdził, testując zdolność modelu do rozróżniania prawie identycznych podpowiedzi rozproszonych przez masywne okno kontekstowe. W odniesieniu do referencji Graphwalks, który obejmuje rozumowanie między węzłami na wykresie syntetycznym, GPT-4.1 uzyskał 62%, znacznie wyprzedzając 42%GPT-4O.
Thomson Reuters zgłosił 17% wzrost dokładności przeglądu dokumentów prawnych za pomocą GPT-4.1 w swoim systemie Cocounsel, podczas gdy Carlyle odnotował 50% poprawy w wyodrębnianiu szczegółowych danych finansowych z złożonych plików.
GPT-4.5 Out-Humans ludzie w nowym teście
Szybsze wnioskowanie i lepsze zrozumienie obrazu
Openai skrócił czas na pierwszy token, stosując ulepszenia stosu wnioskowania. GPT-4.1 Nano odpowiada w mniej niż pięć sekund na 128K-Token Monity. W przypadku zadań multimodalnych GPT-4.1 MINI pokazuje silniejsze rozumienie obrazu niż GPT-4O na odniesieniach, takich jak MMMU i Mathvista.
W odniesieniu do wizualnych punktów odniesienia, takich jak uzasadnienie Charxiv i Video-MME, GPT-4.1 konsekwentnie prowadzi, zdobywając 72% tych ostatnich bez napisów. To sprawia, że jest to najlepszy wybór zrozumienia wideo i interpretacji wykresów naukowych.
Obniżki cen i plany przejściowe
Wszystkie trzy modele GPT-4.1 są teraz dostępne w API, ze znacznym spadkiem ceny. GPT-4.1 jest o 26% tańszy dla mediany zapytań w porównaniu do GPT-4O. Szybkie rabaty do buforowania wzrosły do 75%i nie ma żadnych dodatkowych opłat za dane wejściowe długotertowe. Podgląd GPT-4.5 zostanie przestrzekowany do 14 lipca 2025 r., Na korzyść bardziej wydajnej rodziny GPT-4.1.
Ceny za 1 m tokenów dla GPT-4.1 są ustawione na 2 USD za dane wejściowe, 0,50 USD za dane wejściowe i 8 USD za wyjście. GPT-4,1 Nano spadnie odpowiednio do 0,10 USD, 0,025 USD i 0,40 USD-co do tej pory jest najtańszą opcją.