Gigant technologiczny zaprezentował Apple MGIE, najnowocześniejszy model sztucznej inteligencji typu open source, który umożliwia edycję obrazu za pomocą instrukcji w języku naturalnym. MGIE, skrót od MLLM-Guided Image Editing, wykorzystuje moc multimodalnych dużych modeli językowych (MLLM) do interpretowania poleceń użytkownika i wykonywania manipulacji na poziomie pikseli z niezwykłą dokładnością.
Model oferuje szeroki zakres możliwości edycji, w tym modyfikację w stylu Photoshopa, globalną optymalizację zdjęć i edycję lokalną. Oznacza to, że użytkownicy mogą bez wysiłku ulepszać swoje obrazy za pomocą prostego polecenia tekstowego.
Rozwój MGIE jest wynikiem przełomowej współpracy firmy Apple z zespołem badaczy z Uniwersytetu Kalifornijskiego w Santa Barbara. Model została zaprezentowana w artykule naukowym zaakceptowane na prestiżowej Międzynarodowej Konferencji na temat reprezentacji uczenia się (ICLR) 2024, wiodącej platformie badań nad sztuczną inteligencją. Artykuł ukazuje imponującą skuteczność MGIE w ulepszaniu automatycznych wskaźników i ocen dokonywanych przez ludzi, przy jednoczesnym zachowaniu wydajności wnioskowania konkurencyjnego.

Co to jest Apple MGIE?
Apple MGIE, czyli Multimodal Guided Image Editing, to system opracowany przez firmę Apple, który wykorzystuje uczenie maszynowe, aby umożliwić użytkownikom edycję obrazów przy użyciu instrukcji w języku naturalnym. Oznacza to, że zamiast korzystać ze skomplikowanych narzędzi lub menu do edycji, użytkownicy mogą po prostu opisać, co chcą zrobić z obrazem, a MGIE automatycznie dokona zmian.
Podobnie jak inne generatywne narzędzia do tworzenia obrazów AI, takie jak W połowie podróży, Stabilna dyfuzjaI DALL-E, Apple MGIE wypełnia lukę pomiędzy ludzkimi intencjami a manipulacją obrazem. Wykorzystuje siłę uczenia się multimodalnego, co oznacza, że rozumie zarówno informacje wizualne (sam obraz), jak i informacje tekstowe (twoje instrukcje).

Jak działa Apple MGIE?
Użytkownik może powiedzieć „Uczyń niebo na tym zdjęciu bardziej niebieskim” lub „Usuń czerwony samochód z tego zdjęcia”, a MGIE będzie w stanie zrozumieć i wykonać te instrukcje. MGIE jest wciąż w fazie rozwoju, ale ma potencjał, aby edycja obrazów była znacznie łatwiejsza i bardziej dostępna dla każdego.
Podstawowa koncepcja przepływu pracy Apple MGIE jest następująca:
- Wprowadzanie poleceń: Opisujesz pożądane zmiany prostym angielskim, np. „Podwyższ drzewa na tym zdjęciu” lub „Zmień kolor sukienki na niebieski”
- Zrozumienie swoich intencji: Zaawansowany model językowy MGIE rozszyfrowuje Twoje instrukcje, chwytając konkretne obiekty, atrybuty i modyfikacje, które masz na myśli
- Wizualne zrozumienie: jednocześnie MGIE analizuje obraz, identyfikując kluczowe elementy i ich relacje
- Edycja z przewodnikiem: Łącząc zrozumienie językowe i wizualne, MGIE inteligentnie manipuluje obrazem, aby dokładnie odzwierciedlał Twoje polecenia. Nie tylko ślepo podąża za instrukcjami, ale potrafi interpretować kontekst i wprowadzać rozsądne zmiany

Jak korzystać z MGIE
Apple MGIE pojawił się jako projekt open source na GitHubie, oferując unikalne podejście do edycji obrazów za pomocą poleceń języka naturalnego. Dzięki temu rozwiązaniu użytkownicy mogą bezpośrednio eksplorować projekt i wnosić do niego swój wkład.
Projekt zapewnia pełny dostęp do kodu źródłowego, danych szkoleniowych i wstępnie wytrenowanych modeli w serwisie GitHub. Ta przejrzystość umożliwia programistom i badaczom zrozumienie jego wewnętrznego działania i potencjalnie przyczynienie się do ulepszeń.
A notes demonstracyjny jest również dostępny w serwisie GitHub, prowadząc użytkowników przez różne zadania edycyjne, korzystając z instrukcji w języku naturalnym. Służy to jako praktyczne wprowadzenie do możliwości MGIE.
Użytkownicy mogą także eksperymentować z MGIE poprzez demonstrację internetową prowadzoną w Hugging Face Spaces. Ta platforma internetowa oferuje szybki i wygodny sposób wypróbowania systemu bez konieczności konfiguracji lokalnej.
System przyjmuje opinie użytkowników i pozwala na udoskonalenie edycji lub zażądanie innych modyfikacji. To iteracyjne podejście ma na celu zapewnienie, że wygenerowane zmiany będą zgodne z artystyczną wizją użytkownika.
Chociaż open source sprawia, że MGIE jest dostępne, należy pamiętać, że pozostaje on w fazie rozwoju. Trwające badania i wkład użytkowników będą kształtować jego przyszłe możliwości i potencjalne zastosowania.
Autor wyróżnionego obrazu: vecstock/Freepik.