Google Deepmind zidentyfikował fundamentalne ograniczenia architektoniczne w systemach generacji pobierania (RAG), które opierają się na gęstej osadzenia. Ograniczenie to ujawnia, że osadzanie o stałej wielkości nie mogą reprezentować wszystkich istotnych kombinacji dokumentów jako skal bazy danych, wpływając na skuteczność wyszukiwania. Podstawowa kwestia polega na zdolności reprezentacyjnej osadzonych o stałej wielkości. Stały wymiar nie może dokładnie przedstawić wszystkich możliwych kombinacji odpowiednich dokumentów, gdy baza danych przewyższa określony rozmiar. Ograniczenie to jest zakorzenione w zasadach złożoności komunikacji i teorii rankingu. Ustalono teoretyczne limity pojemności oparte na wielkości osadzania. Osadze 512 wymiarów osiągają limit około 500 000 dokumentów. Zwiększenie wymiarów do 1024 rozszerza limit do około 4 milionów dokumentów. Dalszy wzrost do 4096 wymiarów podnosi pułap do 250 milionów dokumentów. Limity te reprezentują najlepiej oceniane szacunki w ramach swobodnej optymalizacji osadzania, w których wektory są bezpośrednio zoptymalizowane z etykietami testowymi. Według raportu Google Deepmind, oczekuje się, że wbudowane w światowe ograniczenia językowe są jeszcze wcześniejsze. Aby empirycznie zademonstrować to ograniczenie, Google DeepMind wprowadził punkt odniesienia limitu, zaprojektowany w celu osadzania testów stresowych. Benchmark limitu obejmuje dwie konfiguracje: ogranicz pełne i ogranicz małe. Pełna konfiguracja limitu składa się z 50 000 dokumentów, w których nawet silni osadzacze odczuwają upadek wydajności, przy wycofaniu@100 często spada poniżej 20%. Limit małej konfiguracji, obejmującej zaledwie 46 dokumentów, nadal stanowi wyzwanie dla modeli. Wydajność różni się znacznie, pozostając dalekie od wiarygodnych. Specyficzne wyniki testowania ograniczenia Mała konfiguracja obejmuje: Promptriever LAMA3 8B Osiągnięto 54,3% wycofanie@2 z wymiarami 4096. Gritlm 7b uzyskał 38,4% wycofanie@2, również z wymiarami 4096. E5-Mistral 7b osiągnął 29,5% wycofanie@2, wykorzystując 4096 wymiarów. Osadza Bliźnięta osiągnęło 33,7% wycofanie@2 z 3072 wymiarami. Badanie pokazuje, że nawet przy tylko 46 dokumentach żaden osadzarka nie osiąga pełnego wycofania, podkreślając, że ograniczenie wynika z samej architektury osadzania jednego wektora, nie wyłącznie z wielkości zestawu danych. Natomiast BM25, klasyczny rzadki model leksykalny, obchodzi to ograniczenie. Rzadkie modele działają w skutecznie nieograniczonych przestrzeniach wymiarowych, ułatwiając wychwytywanie kombinacji, których gęste osadzanie nie mogą skutecznie przedstawić. Obecne implementacje RAG często zakładają, że osadzanie mogą skalować w nieskończoność wraz ze wzrostem objętości danych. Badania Google Deepmind pokazują nieprawidłowość tego założenia, ujawniając, że osadzenie rozmiaru z natury ogranicza zdolność pobierania. Ograniczenie to znacząco wpływa na wyszukiwarki korporacyjne zarządzające milionami dokumentów, systemy agencyjne opierające się na złożonych logicznych zapytaniach i zadaniach wyszukiwania instrukcji, w których zapytania dynamicznie definiują znaczenie. Istniejące punkty odniesienia, takie jak MTEB, nie rejestrują odpowiednio tych ograniczeń, ponieważ testują tylko wąski podzbiór kombinacji dokumentów zapytania. Zespół badawczy sugeruje, że skalowalne pobieranie wymaga wyjścia poza osadzanie pojedynczego wektora. Alternatywy dla osadzonych wśród wektorów obejmują krzyżowe, które osiągają doskonałe wycofanie w odniesieniu limitu poprzez bezpośrednie punkty pary dokumentów zapytania, choć z dużym opóźnieniem wnioskowania. Modele wieloczesyściowe, takie jak Colbert, oferują bardziej ekspresyjne wyszukiwanie, przypisując wiele wektorów na sekwencję, poprawę wydajności zadań o granice. Rzadkie modele, w tym BM25, TF-IDF i rzadkie retrievery neuronowe, lepiej skalują się w poszukiwaniu wysokości wymiaru, ale brakuje semantycznego uogólnienia. Kluczowym odkryciem jest to, że innowacje architektoniczne, a nie po prostu zwiększające rozmiar osadzenia, są niezbędne. Analiza zespołu badawczego ujawnia, że gęste osadzony, pomimo ich powszechnego użytku, są ograniczone limitem matematycznym. Gęste osadzony nie mogą uchwycić wszystkich możliwych kombinacji istotności, gdy wielkości korpusu przekroczą granice związane z osadzaniem wymiarowości. Ograniczenie to jest konkretnie wykazane przez punkt odniesienia limitu, przy czym przywołanie@100 spadnie poniżej 20% na pełnym limicie (50 000 dokumentów), a nawet najlepsze modele maksymalne przy około 54% wycofanie@2 na limicie małych (46 dokumentów). Techniki klasyczne, takie jak BM25, lub nowsze architektury, takie jak retrievery wielu wektorów i krzyżowe, pozostają niezbędne do budowania niezawodnych silników wyszukiwania na dużą skalę.




