Zmiana miejska zwykle nasyka się na nas. Nowa kawiarnia tutaj. Malowany wiadukt. Ale co, jeśli zobaczysz całą dekadę transformacji wizualnej miasta, automatycznie przechwycona, posortowana i wyjaśniona przez AI?
Właśnie tak nazywał nowy projekt badawczy Kroniki wizualne wyruszyć do zrobienia. Opracowany przez badacze Od Stanford i Google Deepmind ten system wykorzystał multimodalne modele dużych języków (MLLMS) do analizy ponad 40 milionów zdjęć Google Street View z Nowego Jorku i San Francisco. Zamknął trendy, które ludzie nie zauważą łatwo.
Niemożliwy problem skali
Śledzenie małych zmian w czasie nie jest niczym nowym w wizji komputerowej. Ale większość wcześniejszych prac wymagała etykiet lub koncentrowała się na określonych rzeczach, takich jak samochody lub twarze. Ten projekt był inny. Cel był otwarty: co najczęściej zmieniało się w tych miastach, w ciągu dekady?
Proste pytanie. Brutalnie trudny w praktyce.
Duże modele językowe są dobre w rozumowaniu obrazów, ale walczą, gdy zestaw danych wzrasta ponad kilka tysięcy zdjęć. Kroniki wizualne miały do czynienia z milionami. Tak więc naukowcy zaprojektowali strategię oddolną. Najpierw wykryj małe zmiany lokalne, takie jak nowy znak lub usunięte drzewo. Następnie wkurz je w szersze trendy w całym mieście.
Praca detektywistyczna AI na ulicach
Oto jak działało w akcji:
- Krok 1: Porównaj obrazy tej samej lokalizacji w czasie.
- Krok 2: Poproś AI o opisanie tego, co się zmieniło, z dowodami z obrazów.
- Krok 3: Grupa podobne zmiany znalezione w całym mieście.
- Krok 4: Sprawdź te trendy za pomocą dalszych kontroli AI.
To podejście hybrydowe pozwala systemowi wykryć subtelne zmiany. Outdoorowe konfiguracje jadalni po Covid-19. Nowe panele słoneczne na dachach. Wszystkie zauważone bez utonięcia danych lub generowania abstrakcyjnych odpowiedzi, takich jak „wzrost gospodarczy”.
Więc co to znalazło?
W Nowym Jorku AI zauważyła dramatyczny wzrost:
- Kamery bezpieczeństwa: 745 nowych instalacji w dzielnicach.
- Ogrodzenia wokół parkingów: 509 nowych dodatków.
- Ulepszenia chodników: 519 Nowe podkładki ostrzegawcze Red Ada.
W San Francisco charakterystyczne trendy dekady wyglądały inaczej:
- Panele słoneczne: 1504 Nowe instalacje na dachu, szczególnie widoczne z podniesionych autostrad.
- Dedykowane pasy autobusowe: 751 Nowe konwersje pasów do transportu publicznego.
- Stojaki rowerowe: 1799 Nowe stojaki, głównie w pobliżu centrum miasta.
Covid Lata pozostawiła wizualne odciski palców
Naukowcy skupili się również na okresie pandemicznym, uchwycając, jak ulice miasta przystosowały się po 2020 r. Wybuchy na świeżym powietrzu eksplodowały w San Francisco, z 1482 nowymi konfiguratorami zarejestrowanych w ciągu samego 2020 do 2022 roku.
A potem był niebieski wiadukt. Sekcja autostrady w San Francisco została namalowana „Coronado Blue”, szczegółowo zauważono 481 razy w zdjęciach ulicznych po 2020 roku.
W Nowym Jorku system był również wykorzystywany do śledzenia zmian sklepów detalicznych. Ujawniło dwa przeciwne trendy:
- Otwory piekarni i sklepów z sokami w obszarach gentryfikujących.
- Zamknięcia sklepów spożywczych i oddziałów banków w starszych strefach detalicznych.
Bo dlaczego nie. Naukowcy przeprowadzili ostateczny eksperyment, prosząc sztuczną inteligencję o spojrzenie na losowe obrazy i znalezienie „nietypowych rzeczy”.
Zwycięzca? Gigantyczne abstrakcyjne rzeźby rozrzucone po Nowym Jorku. Ponad 200 przypadków publicznych instalacji artystycznych, wszystkie zgrupowane według modelu.
Czy modele AI ufają swoim organom regulacyjnym?
Dlaczego to ma znaczenie daleko poza widokiem ulicznym
Wizualne kroniki pokazują, w jaki sposób przyszłe narzędzia AI mogą umożliwić firmom, rządom lub naukowcom śledzenie zmian w każdym dużym wizualnym zestawie danych. Obrazy satelitarne. Podłogi fabryczne. Każde miejsce, które zmienia się z czasem.
To także ostrzeżenie. AI nie tylko „widzi” obrazy. Wyjaśnia im je w sposób, który kształtuje to, co naszym zdaniem się dzieje. Im bardziej ufamy tym zautomatyzowanym raportom trendów, tym bardziej potrzebujemy systemów równoważących prędkość sztucznej inteligencji z ludzką ostrożnością.
Kroniki wizualne jest wczesnym przykładem tego rodzaju systemu. Jest to wystarczająco precyzyjne, aby znaleźć prawdziwe wzorce, wystarczająco skalowalne, aby poradzić sobie z milionami obrazów i wystarczająco uzasadnione, aby opuścić opowiadanie poparte dowodami.