Fotogrametria od dawna jest podstawą rekonstrukcji sceny 3D, ale jej tradycyjny rurociąg, gęste wymagania obrazu, odłączone etapy przetwarzania i skumulowany błąd, były upartym wąskim gardłem. Nowy model Matrix3D Appleszczegółowe w niedawno wydanym Artykuł badawczyprzedstawia zunifikowane ramy zaprojektowane w celu usunięcia tych barier poprzez zintegrowanie wielu zadań fotogrametrii z jednym, generatywnym systemem.
W przeciwieństwie do tradycyjnych przepływów pracy fotogrametrii, które opierają się na oddzielnych narzędziach do szacowania, prognozowania głębokości i syntezy nowatorskiego widoku, Matrix3D obsługuje wszystkie te funkcje w jednym modelu. Ta zmiana jest czymś więcej niż konsolidacją techniczną. Reprezentuje ewolucję filozoficzną w stosunku do ewentualnych, kompleksowych systemów zdolnych do rozwiązywania rekonstrukcji 3D przy minimalnym wejściu, Czasami nawet z jednego obrazu.
Podejście do fotogrametrii
Matrix3D jest zbudowany na Multimodalny transformator dyfuzyjny (DIT) Architektura. Oznacza to, że nie uczy się tylko z obrazów RGB, ale także z map głębokości i pozów aparatu, wszystkie zakodowane w zunifikowanej reprezentacji 2D. Na przykład przekształca geometrię 3D na mapy głębokości 2.5D i reprezentuje informacje o kamerze za pomocą map Plücker Ray. Ta konstrukcja umożliwia stosowanie technik od nowoczesnych modeli obrazów generatywnych do generacji 3D z wieloma widokami.
Model działa poprzez uczenie się przewidywania brakujących metod na podstawie zamaskowanych danych wejściowych. Podczas szkolenia Matrix3D jest narażony na częściowo kompletne zestawy danych-niektóre z tylko parami obrazu, inne z parami obrazu. Strategia maskowania znacznie rozszerza użyteczną pulę szkoleniową i uczy modelu uogólnienia między konfiguracjami wejściowymi. Usuwając zależność od kompletnych zestawów danych, zwiększa także odporność modelu w praktycznych aplikacjach w świecie rzeczywistym.

Wydajność w zadaniach
Naukowcy Apple wskażeli Matrix3D w wielu zestawach danych, w tym CO3D, DTU i GSO. W celu oszacowania pozycji w rzadkich warunkach wejściowych MATRIX3D przewyższyło najnowocześniejsze modele, takie jak Rydifusion i Dust3R. Jego zdolność do oszacowania pozycji kamery z zaledwie dwóch lub trzech zdjęć okazała się lepsza zarówno pod względem rotacji, jak i dokładności tłumaczenia.
W syntezie New View model osiągnął konkurencyjne wyniki PSNR i SSIM w różnych konfiguracjach kamer. Po testowaniu przeciwko wiodącym systemom, takim jak SyncDreamerW Wonder3dI Zero123xlW Matrix3D konsekwentnie dostarczał wyniki o wyższej wierności. Dodanie map głębokości dodatkowo poprawiło te wskaźniki, pokazując siłę obsługi modalności hybrydowej.
W celu oszacowania głębokości Matrix3D ponownie udowodnił swoją zdolność adaptacyjną. Mimo że model był przeszkolony w wielu widokach, dobrze działał w zadaniach jednoocznych, przewyższając wyspecjalizowane modele głębokości, takie jak Metric3D V2 i głębokie, cokolwiek v2. Było to szczególnie widoczne w złożonych scenach z zestawu danych DTU, w którym macierz 3D wytwarzał niższe błędy względne i średnie wyniki odchylenia kwadratowego.

Jedną z wyróżniających się funkcji Matrix3D jest jego Zdolność do rekonstrukcji geometrii 3D z bardzo ograniczonych danych wejściowych. Model może rozpocząć się od jednego obrazu, oszacować brakujące pozycje i mapy głębokości oraz zsyntetyzować dodatkowe widoki potrzebne do zainicjowania rurociągu 3D Gaussa (3DGS). Te kroki wcześniej wymagały oddzielnych narzędzi lub obszernych danych wejściowych. Teraz można je wykonywać w ujednoliconych ramach, które upraszcza cały proces rekonstrukcji.
W przypadku Matrix3D nawet nieoponowane rzadkie zestawy obrazów stają się opłacalne dla rekonstrukcji 3D. Model autonomicznie szacuje pozę, wypełnia brakujące widoki i przygotowuje dane wejściowe dla silników renderowania. Jego wyniki zostały zatwierdzone w stosunku do testów porównawczych i porównań wizualnych, wykazując obiecującą dokładność, pomimo działania z mniejszą liczbą zasobów niż konkurencyjnych metod. MATRIX3D zapewnia porównywalne wyniki z systemami Multi-GPU, takimi jak CAT3D podczas efektywnego działania na jednym GPU.

W zadaniach hybrydowych Matrix3D jest wyjątkowo ustawiony. Może spożywać dowolne kombinacje wejść RGB, Pose i głębokości oraz generować odpowiednie wyjścia bez konieczności przekwalifikowania lub zmian architektonicznych. Ta funkcja otwiera drzwi do szerszej aplikacji w interaktywnym projektowaniu 3D, generowaniu treści AR/VR i skanowaniu środowiska w czasie rzeczywistym.
- IlościowoMATRIX3D Ustawia nowe punkty odniesienia w kilku zadaniach fotogrametrii. W zakresie pozacji osiąga ponad 96 procent względnej dokładności obrotu z zaledwie dwoma widokami. W przypadku syntezy nowatorskiego widoku dostarcza doskonałych wyników SSIM i PSNR w wielu konfiguracjach. Głęboką przewidywanie rejestruje niższe bezwzględne błędy względne i wyższe wskaźniki inlantów w porównaniu ze specjalistycznymi liniami bazowymi.
- JakościowoUlepszenia są równie uderzające. Wyjścia wizualne pokazują geometrię chrupiącą, mniej artefaktów i lepszą konsystencję w różnych punktach widzenia. W porównaniu z wcześniejszymi modelami Matrix3D zapewnia stabilne renderingi nawet przy trudnych ograniczeniach wejściowych. Wzmacnia to użyteczność ujednoliconych, opartych na dyfuzyjnych rurociągach fotogrametrii jako następnej granicy w generacji 3D.