Stukasz „Run” na asystenta zasilanego GPT, a następnie obserwujesz spinner. Sekundy rozciągają się na minuty, mierniki tokena wspina się, a licznik na fakturze Openai wkrada się wyżej. Opóźnienie i koszty stały się niewidocznym podatkiem od boomu modelu dużego języka, szczególnie gdy jedno twarde zapytanie może wywołać tysiące świeżych tokenów wnioskowania. Nowa propozycja badań o nazwie Obliczanie czasu snu Twierdzi, że tokeny te są często spędzane w niewłaściwej fazie przepływu pracy. Zamiast wcisnąć wszelkie rozumowanie w momencie, gdy użytkownik uderzy w Enter, dlaczego nie pozwolić modelowi „myśleć” w bezczynnych godzinach, przekształcić surowy kontekst w wgląd wielokrotnego użytku i obniżyć rachunek, gdy w końcu pojawi się prawdziwe pytanie?
Pomysł wydaje się znany każdemu, kto kiedykolwiek zaplanował indeks bazy danych lub skompilował kod przed wysyłką: wstępny przetwarzanie, gdy nikt nie patrzy, reaguj natychmiast, gdy są. Jednak zastosowanie tego sposobu myślenia do modeli językowych wymaga świeżych punktów odniesienia, starannej rachunkowości i dowodu, że wysiłek offline przenosi się na dokładność online. Kevin Lin i współpracownicy z Letta i UC Berkeley dostarczają dokładnie te dowody w „Obliczanie w czasie snu: poza skalowaniem wnioskowania w czasie testowym”, A ich liczby sugerują przemyślenie, w jaki sposób cykle GPU produktów AI Enterprise AI.
Tradycyjne skalowanie w czasie testów mówi LLM, aby ciężko pracował, gdy pytanie jest trudne: próbka wielu łańcuchów myśli, rozszerzanie śladu rozumowania, reakcji Rerank lub widelca dziesiątek odpowiedzi kandydujących równolegle. Te sztuczki zwiększają dokładność zadań matematyki, kodowania i wiedzy, ale także nadają opóźnienia i odpływ portfela. Użytkownicy czekają; Sprzedawcy płacą. Co gorsza, paradygmat zakłada, że każde zapytanie jest bezpaństwowym jednym, który pojawia się z pełnym kontekstem w tym samym żądaniu.
W prawdziwym świecie konteksty utrzymują się. Boty wspierające klientów czytają tę samą bazę wiedzy, agenci kodujący poruszają się w tym samym repozytorium, a badanie Copilots ponownie powróci do współdzielonego korpusu dokumentu. Autorzy twierdzą, że w tych warunkach państwowych ogromne fragmenty rozumowania są wykonywane zbędne. Obliczanie czasu snu Wykorzystanie tej redundancji, umożliwiając model wcześniej sparatowanie kontekstu podczas bezczynnych okien, tworzyć destylowaną, wynikającą z wnioskowania reprezentację i przechowuj go w celu późniejszego użycia. Kiedy użytkownik w końcu pyta, LLM odpowiada w ułamku tokenów, ponieważ znaczna część ciężkiego podnoszenia jest już upieczona w podpowiedzi.
Dlaczego obliczanie czasu snu przepisuje krzywą kosztów
Naukowcy sformalizują przepływ pracy w dwóch fazach. Podczas czas snu Model widzi tylko kontekst Cprzewiduje prawdopodobne kąty zainteresowania i tworzy przepisany kontekst C’ To zawiera odliczenia pośrednie, strukturalne podsumowania lub buforowane fragmenty łańcuchowe. Podczas czas testu zapytanie użytkownika Q przybywa. Model odbiera teraz C’ zamiast surowego kontekstu i może osiągnąć poprawną odpowiedź przy znacznie mniejszym budżecie obliczeniowym B. Ponieważ bezczynne godziny są tanie i równoległe, organizacja płaci wskaźniki niskiej priorytetu za wstępne przetwarzanie i zachowuje pojemność premium w zakresie reaktywności w zakresie reakcji użytkowników.
Aby określić ilościowo korzyść, zespół podzielił dwa klasyczne apartamenty matematyczne – GSM -Symboliczne i Aime – Into Stateful Warianty, w których każdy problem jest rozkładany na akapit kontekstowy i osobne pytanie. Zbudowali też Wielobranci GSM -Symbolicznew którym każdy kontekst odradza kilka powiązanych pytań, naśladując użytkownika, który ciągle szturcha ten sam dokument. Matryca oceny porównała wyjściową GPT – 4O, GPT – 4O -Mini, O1, O3 -Mini, Claude Sonnet i Deepseek – R1 w trzech warunkach: standardowe skalowanie czasowe, obliczanie czasu snu z różnymi budżetami offline oraz Pass-@ Pass-@k Równoległe próbkowanie.
Co pokazują eksperymenty
W każdym modelu oprócz najmniejszej O1, strategii snu wypchnął granicę o dokładność na zewnątrz. NA Stateful GSM -Symbolic I Stateful Aime Autorzy zgłaszają:
- 5 × niższa Tokeny czasowe, aby osiągnąć tę samą dokładność, co podstawowe sekwencyjne przebiegi łańcuchowe.
- 13 procent Zysk dokładności na GSM, gdy budżet offline zwiększył się do pięciu równoległych pokoleń w czasie snu.
- 18 procent Zysk dokładności w AIME z wyższym wskaźnikiem rozumowania offline.
- 2,5 × redukcja w średnim koszcie za zapytanie, gdy dziesięć powiązanych pytań podzieliło się tym samym wstępnie przetworzonym kontekstem.
Być może bardziej uderzające, obliczeni w czasie snu pokonaj kanoniczny przełęcz@k Sztuczka przy równych budżetach czasowych. Przechodzić-@k Zakłada, że weryfikator Oracle może natychmiast wybrać to, co najlepsze k Próbki odpowiedzi, nierealistyczna kula w produkcji. Obliczanie w czasie snu osiąga wyższą dokładność bez tego luksusu, ponieważ ciężkie rozumowanie już żyje C’.
Wypłata jest wrażliwa na to, jak przewidywalne jest ostateczne pytanie. Kiedy naukowcy przebili pozycje GSM przez logarytmi prawdopodobieństwo, że LLAMA – 2 przypisał do pytania, biorąc pod uwagę kontekst, dokładność delta między czasem snu a linią wyjściową poszerzyła się dla najbardziej przewidywalnego kwintyla. W zwykłym angielskim: im bardziej oczywiste jest pytanie kolejne, tym większa wygrana z wcześniejszego przygotowania pracy domowej.
Liczby to jedno; Implikacje produktu to kolejne. Autorzy przeprowadzają prawdziwy test repozytorium o nazwie Features SWE w którym agent musi zmodyfikować trzy lub więcej plików, aby wdrożyć funkcję. Dzięki jedynie budżetom w czasie testowym, zastosowanie tokenu obliczania w czasie snu o około 50 procent podczas dopasowywania F1, co oznacza szybsze połączenie i niższe rachunki GPU w zakresie botów w sposób ciągły. Przy bardzo wysokim budżecie klasyczne rozumowanie w czasie testowym odzyskało niewielką przewagę precyzji, sugerując politykę hybrydową: Agresywnie przydziel się obliczanie offline, gdy opóźnienie ma znaczenie lub gdy kontekst zostaną ponownie wykorzystane, wracają do bogatych łańcuchów online tylko w przypadku jednej lub wysoce nieprzewidywalnych zapytań.
Ramy otwierają również drzwi do generowania danych syntetycznych. Jeśli rozumowanie w czasie snu daje bogate reprezentacje naturalnego języka bazy lub dokumentu, same artefakty stają się szkoleniem danych dla przyszłego wykroczenia – cnotliwej pętli, w której myślenie offline nasi się następnej generacji ulepszeń modelu bez skrobania większej ilości tekstu internetowego.
Operacyjnie technika zaprasza pytania inżynieryjne. Jak często należy odświeżyć pamięć podręczną kontekstu? Jak duży może C’ rosnąć, zanim anuluje oszczędności tokena? Które cykle bezczynności są naprawdę wolne w wspólnej klastrze? Jednak żadna z tych przeszkód nie wygląda tak potężnie, jak obecna rzeczywistość płacenia cen w czasie rzeczywistym za zbędne rozumowanie. Przedsiębiorstwa, które już planują nocne kompilacje, indeksowanie wyszukiwania lub zmaterializowane widoki, mają modele mentalne dla tej optymalizacji.
Jak LLM cicho stają się najwyższymi historykami miasta
Gdzie pasuje myślenie offline
Obliczanie czasu snu nie jest srebrną kulą. Zapytania, które ślepy na system lub konteksty, które zbyt szybko mutują, nadal będą wymagać świeżych łańcuchów myślenia. Sam artykuł zawiera otwarte badania nad adaptacyjnymi zasadami, które przewidują, kiedy inwestycja offline się opłaci, być może poprzez oszacowanie entropii kontekstowej lub dystrybucji intencji użytkownika. Mimo to podstawowe stojaki na wynos: duże modele językowe nie muszą myśleć tylko wtedy, gdy użytkownik ogląda. Pożyczając wiekową sztuczkę obliczeniową – dziś wieczorem robotnicy – deweloperzy mogą obniżyć opóźnienia, zmniejszyć rachunki i nadal wspinać się po drabinie dokładności.
Rezultat: Twoja następna funkcja LLM może nie wymagać większego modelu lub głębszego budżetu rozumowania. Może to po prostu wymagać najpierw spania modelu problemu.





