Nvidia oficjalnie wkroczyła na ring z potężnym modelem sztucznej inteligencji o otwartym kodzie źródłowym, NVLM 1.0, rzucając wyzwanie gigantom branżowym, takim jak OpenAI i Google.
Nowa rodzina dużych multimodalnych modeli językowych NVLM 1.0 firmy zapewnia najnowocześniejsze możliwości zarówno w przypadku zadań wizualnych, jak i tekstowych.
Liderem pakietu jest NVLM-D-72B o parametrach 72 miliardów, model zaprojektowany do działania na najwyższym poziomie, mający ogromny wpływ na zadania wizjonersko-językowe, przy jednoczesnej poprawie tradycyjnych wyników tekstowych.
Co sprawia, że NVLM 1.0 jest wyjątkowy?
Wydanie NVLM 1.0 oznacza wyraźną zmianę w ekosystemie sztucznej inteligencji, w którym w dużej mierze dominowały modele zastrzeżone. Decyzja Nvidii o publicznym udostępnieniu ciężarów modeli i ostatecznym udostępnieniu kodu szkoleniowego zapewnia badaczom i programistom dostęp do narzędzi konkurujących z narzędziami takimi jak GPT-4. To rzadkie posunięcie w branży, w której najbardziej zaawansowane modele pozostają pod kluczem i ściśle kontrolowane przez gigantów technologicznych.
Jak stwierdziła Nvidia w swoim artykuł badawczy, „NVLM 1.0 osiąga najnowocześniejsze wyniki w zadaniach wizjonerskich, rywalizując zarówno z modelami zastrzeżonymi, jak i modelami o otwartym dostępie”.
Oznacza to dla programistów: nowa granica w dostępności sztucznej inteligencjipodobnie jak to, co zrobiła Meta Lama 3.2dając mniejszym laboratoriom i niezależnym badaczom szansę pracy z najwyższej klasy narzędziami sztucznej inteligencji bez konieczności pokonywania często zaporowych kosztów lub ograniczeń korporacyjnych.
Wersja open source programu NVLM 1.0 wywołało podekscytowanie w całej społeczności badawczej zajmującej się sztuczną inteligencją. Jeden z wybitnych badaczy podkreślił znaczenie modelu w mediach społecznościowych, stwierdzając:
Wow, nvidia właśnie opublikowała model 72B, który jest ~ na równi z lamą 3.1 405B w ocenach matematycznych i kodowania, a także ma wizję 🤯 pic.twitter.com/c46DeXql7s
— Phil (@philll__1) 1 października 2024 r
Multimodalny potężny NVLM-D-72B
W centrum tej rewolucji open source znajduje się NVLM-D-72B model, który wyróżnia się możliwością płynnej obsługi zarówno danych wizualnych, jak i tekstowych. Ta multimodalność oznacza, że model może interpretować obrazy, analizować złożone wizualizacje, a nawet rozwiązywać problemy matematyczne krok po kroku – a wszystko to w ramach jednego środowiska.
Tam, gdzie wiele modeli multimodalnych ma problemy z utrzymaniem wydajności w zadaniach tekstowych po zintegrowaniu uczenia się wizualnego, NVLM-D-72B przełamuje trend.
Według Nvidii model poprawił dokładność tekstu średnio o 4,3 punktu w kilku kluczowych testach porównawczych po szkoleniu multimodalnym. Ten rodzaj możliwości adaptacji pozycjonuje NVLM-D-72B jako unikalne narzędzie na rynku, które zazwyczaj zmusza użytkowników do wyboru pomiędzy modelami zoptymalizowanymi pod kątem zadań wizualnych lub tekstowych, ale nie obu.
Otwieranie nowych drzwi, stawianie nowych pytań
The Projekt NVLM nie dotyczy tylko otwartego dostępu. Wprowadza także innowacyjne projekty architektoniczne, które łączą różne techniki przetwarzania multimodalnego, przesuwając granice możliwości sztucznej inteligencji. Hybrydowe podejście Nvidii może z powodzeniem zainspirować nowy kierunek badań i rozwoju sztucznej inteligencji, gdy zespoły na całym świecie dostaną w swoje ręce te narzędzia.
Jednakże, jak w przypadku każdego skoku technologicznego, wiąże się to z ryzykiem. Powszechne udostępnienie tak potężnych modeli sztucznej inteligencji budzi obawy dotyczące potencjalnego niewłaściwego wykorzystania i związanych z tym wyzwań etycznych. Społeczność sztucznej inteligencji będzie musiała zrównoważyć dążenie do innowacji z potrzebą opracowania odpowiedzialnych ram stosowania tych modeli.

Decydujący moment w AI
Decyzja Nvidii o otwartym kodzie źródłowym NVLM 1.0 mogłoby wywołać falę zmian w całym świecie technologii. Inni liderzy branży mogą odczuwać presję, aby pójść w ich ślady, potencjalnie zmieniając cały krajobraz rozwoju sztucznej inteligencji. Jeśli najnowocześniejsze modele staną się swobodnie dostępne, może to zmusić firmy do ponownego przemyślenia, w jaki sposób generują wartość i utrzymują przewagę konkurencyjną na rynku.
Długoterminowy wpływ ruchu Nvidii jest nadal nieznany. W nadchodzących miesiącach i latach możemy spodziewać się ery bezprecedensowej współpracy w dziedzinie sztucznej inteligencji, w ramach której badacze ze wszystkich zakątków świata będą współpracować na wspólnych platformach. Ewentualnie taki rozwój sytuacji mógłby skłonić do głębszego zbadania konsekwencji wprowadzenia zaawansowanej technologii bez wprowadzenia ścisłych kontroli.
Jedno jest jasne: wydanie przez Nvidię NVLM 1.0 to posunięcie zmieniające zasady gry, sygnalizujące zmianę równowagi sił w branży sztucznej inteligencji. Udostępniając tak wysokiej klasy model jako open source, Nvidia kwestionuje status quo, rozpoczynając coś, co może otworzyć nowy rozdział w rozwoju sztucznej inteligencji.
Pytaniem nie jest teraz, czy modele sztucznej inteligencji i rynek ulegną zmianie – ale jak radykalnie i kto będzie w stanie za nimi nadążać.
Autor wyróżnionego obrazu: Emre Citak/Ideogram AI