Openai właśnie zintegrował swój najbardziej zaawansowany generator obrazu z GPT-4O, dzięki czemu generowanie obrazu jest „podstawową zdolnością” modeli językowych. Pozwala to na tworzenie precyzyjnych, fotorealistycznych obrazów przydatnych do różnych zadań, od schematów po komunikację wizualną.
Ludzie zawsze polegali na obrazach wizualnych dla nie tylko dekoracji – pomyśl obrazy jaskiniowe ewoluujące w nowoczesne infografiki. Podczas gdy obecne modele generatywne przodują w tworzeniu oszałamiających wizualizacji, często nie mają one braku praktycznych obrazów. Na przykład logo i diagramy wymagają mieszanki precyzyjnego znaczenia i wspólnego kontekstu, czegoś, co GPT-4O ma na celu dostarczyć.
GPT-4O może dokładnie renderować tekst, ściśle śledzić podpowiedzi i wykorzystać swoją wbudowaną bazę wiedzy-w tym przekształcanie przesłanych obrazów. Funkcje te pomagają uczynić wizerunek bardziej praktycznym narzędziem, zwiększając komunikację wizualną z precyzją.
Szkolenie polegało na narażeniu modeli na mieszankę obrazów i tekstu online, ucząc ich nie tylko sposobu, w jaki obrazy odnoszą się do języka, ale także ich połączenie. Intensywne po szkoleniu dodatkowo zwiększa płynność wzrokową modelu, co powoduje spójne i świadome kontekstu generowania obrazu.
Możliwości generowania obrazu GPT-4O obejmują:
- Renderowanie tekstu: Integruje precyzyjne symbole z obrazami.
- Multi-Turn Generation: Udają się obrazy poprzez ciągłą rozmowę.
- Uczenie się w kontekście: Analizuje i uczy się z obrazów zwolnionych przez użytkowników.
- Wiedza światowa: Łączy wiedzę między tekstem a obrazami.
- Fotorealizm i styl: Tworzy lub przekształca obrazy w różnych stylach.
Pomimo tych postępów model nie jest bezbłędny. Openai uznaje ograniczenia, takie jak problemy z uprawami, halucynacje i wyzwania w precyzyjnym wykresie i wielojęzycznym renderowaniu tekstu, z których wszystkie planują rozwiązać problem po uruchomieniu.
Bezpieczeństwo pozostaje priorytetem. OpenAI ma na celu zrównoważenie swobody twórczej z solidnymi standardami bezpieczeństwa, wdrażanie środków takich jak pochodzenie C2PA i wewnętrzne mechanizmy wyszukiwania w celu zapobiegania niewłaściwemu użyciu.
Nowa funkcja generowania obrazów w GPT-4O jest wprowadzana do Plus, Pro, Team i bezpłatnych użytkowników Chatgpt. Wkrótce będzie dostępny również dla użytkowników Enterprise i EDU. Deweloperzy mogą spodziewać się dostępu do API w nadchodzących tygodniach. Użytkownicy mogą tworzyć obrazy, opisując swoje potrzeby na czacie, określając szczegóły takie jak współczynnik kształtu lub kolory.
Ze względu na szczegółową naturę jego obrazów mogą potrwać do minuty, aby renderować.