Można by pomyśleć, że przewidywanie śmiertelności śmiertelności demencji lub mapowanie hałasu w mieście wymagałoby zespołów ekspertów, badań naziemnych i firm obrazowych satelitarnych. Ale nowy model AI – opracowany przez badacze Na Uniwersytecie Jiaotong i University of Montreal – Claims może to wszystko zrobić jednocześnie, patrząc na mapy, tweety i obrazy. System nazywa się Omnigeoa jeśli badania zasługują na swoją obietnicę, w czasie rzeczywistym może na nowo zdefiniować sposób, w jaki czytamy miasta, katastrofy i środowiska ludzkie.
Dlaczego dekodowanie danych geoprzestrzennych jest tak trudne
Geoai – Short for Geospatial Artifical Intelligence – zawsze był trudną grą. Pomyśl o tym w ten sposób: to tak, jakby próbować zrozumieć miasto, czytając pięć języków jednocześnie. Masz zdjęcia satelitarne, zdjęcia na poziomie ulicznym, statystyki zdrowia publicznego, tweety pełne slangów i hashtagów oraz dane o lokalizacji z tysięcy przypiętych miejsc. Każdy z tych typów danych mówi o innym dialekcie – a większość dzisiejszych systemów AI jest biegła tylko w jednym lub dwóch.
Istniejące modele mogą być dobre w klasyfikowaniu zdjęć teledetekcyjnych lub oznaczaniu lokalizacji w tekście, ale kiedy wrzucasz wszystkie te zadania do jednego garnka, rzeczy się rozpadają. W tym momencie wkracza Omnigeo: Jest to pojedynczy system AI wyszkolony do radzenia sobie z nimi wszystkich.
Zespół stojący za Omnigeo zaprojektował Multimodalny model dużego języka (MLLM)– rodzaj AI, która może interpretować obrazy satelitarne, metadane geoprzestrzenne i język naturalny jednocześnie. Opiera się na modelach typu open source, takich jak Llava i QWen2, ale jest dostosowany do pięciu głównych domen: geografii zdrowotnej, geografii miejskiej, teledetekcji, percepcji miejskiej i semantyki geoprzestrzennej.
Zamiast budować jeden model dla każdego zadania, Omnigeo obsługuje je wszystkie jednocześnie. Sekret? Uczenie się oparte na instrukcji w połączeniu z tym, co naukowcy nazywają „multimodalnym dostrajaniem”. Mówiąc najprościej, uczy się od par-wizerunku, danych szeregowych czasowych, wektorów przestrzennych i innych-wszystkie wyrównane wokół tych samych lokalizacji.
Porozmawiajmy o aplikacjach prawdziwych
Tutaj sprawy stają się interesujące. Omnigeo został przeszkolony w celu:
- Prognozy wskaźnika zgonów związanych z demencją na poziomie hrabstwa przy użyciu danych historycznych i zdjęć satelitarnych.
- Wykryj podstawową funkcję dzielnic miejskich-podobnie jak w obszarze dominowanym przez szkoły lub biura komercyjne-oparte na danych na poziomie ulicy i liczbie POI (punkt zainteresowania).
- Oceń, jak „hałaśliwa” lub „żywa” jest ulica, oparta wyłącznie na obrazach i powiązanych podpisach.
- Opisy lokalizacji parse w tweetach podczas klęsk żywiołowych – takie jak wydobycie „21719 Grand Hollow Lane, Katy, TX” z prośby o ratowanie powodzi.
Ten ostatni przypadek użycia wystarczy, aby wskazać potencjał tego modelu w reagowaniu kryzysowym i zarządzaniu Smart City.
Jak Omnigeo widzi świat
Technicznie rzecz biorąc, Omnigeo działa poprzez przekształcenie danych geograficznych w czytelne narracje. Na przykład obrazy satelitarne są przekształcane w podpisy języka naturalnego („Zielone obszary z rzadkimi strefami przemysłowymi”), a następnie dostosowane do strukturalnych danych, takich jak wskaźniki śmiertelności lub rozkłady POI. Wszystko to jest owinięte w zestaw danych instrukcji, umożliwiając model uczenia się w kontekście, tak jak człowiek.
To nie tylko teoretyczne. Omnigeo przewyższyło GPT-4O i inne wiodące modele w kluczowych zadaniach geoprzestrzennych, w tym Klasyfikacja scenyW rozpoznawanie lokalizacjiI Prognoza funkcji miejskiej. W niektórych przypadkach obniżył poziom błędów o ponad połowę. Nawet w subiektywnych obszarach, takich jak postrzeganie miejskie – jak „piękna” lub „przygnębiająca” wygląd ulicy – okazał się imponująco dokładny.
Dlaczego teraz?
Miasta stają się trudniejsze do zarządzania i łatwiejsze do badań. W przypadku zdarzeń klimatycznych, boomów ludności i kryzysów zdrowia publicznego uderzającego wszystkie decydenci potrzebują szybszych narzędzi do interpretacji chaosu geoprzestrzennego. Omnigeo przybywa w momencie, gdy AI jest w stanie w końcu pochłaniać dane o wysokim wymiaru w formatach.
Różnica? Większość dużych modeli dzisiaj po prostu mówi. Omnigeo widzi, słyszy i rozumie przestrzeń.
Omnigeo jest planem, jak może wyglądać przyszłe AI geoprzestrzenne: jeden system wyszkolony między metodami, dostosowany do rzeczywistych danych wejściowych i gotowy do uogólnienia.
Jeśli chatgpt jest twoim asystentem językowym, Omnigeo może być kolejnym mózgiem w twoim mieście-Translacja chaosu wizualnego i bałaganu lokalizacji do wglądu w czasie rzeczywistym, przydatnym wglądem.
I robi to wszystko bez wyjścia na zewnątrz.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney