Naukowcy z Laboratorium Informatyki MIT i sztucznej inteligencji opracowali pddl-instruct, ramy z wykorzystaniem logicznego rozumowania i walidacji zewnętrznej w celu poprawy, w jaki sposób duże modele językowe generują plany wielu stopni, osiągając do 94% ważności określonych punktów odniesienia. Framework odnosi się do powszechnego niepowodzenia dużych modeli językowych (LLM) w tworzeniu logicznie ważnych planów, które często brzmią prawdopodobne, ale są nieprawidłowe. Instruktury PDDL odpowiada temu poprzez integrację jawnego stanu i semantyki działania z kontrolą prawdy naziemną. Dzięki „Edukacji błędów” modele są szkolone w celu wyjaśnienia awarii planu, w tym niezadowolonych warunków wstępnych, niepoprawnych efektów, naruszeń ram lub nieosiągniętego celu. Logiczna metoda monitu w łańcuchu (COT) prowadzi również model do wykonywania wnioskowania krok po kroku, wytwarzając szczegółowe ślady stanu stanu sformatowane jako ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ oparte na semantyce formalnej. Aby zapewnić poprawność, każdy etap wygenerowanego planu jest weryfikowany przez zewnętrzny walidator Planu VAL. System może odbierać binarne informacje zwrotne (prawidłowe/nieprawidłowe) lub szczegółowe informacje zwrotne określające, które warunki lub efekt nie powiodło się. Badania wykazały, że szczegółowe informacje zwrotne przyniosły najsilniejsze przyrosty wydajności. Instrukt PDDL wykorzystuje również dwustopniowy proces optymalizacji. Pierwszy etap optymalizuje łańcuchy rozumowania modelu poprzez karanie błędów przenoszenia stanu. Drugi etap następnie optymalizuje ostateczną dokładność planu zadania końcowego, tworząc systematyczny schemat szkolenia. System został oceniony na punkcie Benchmench Planbench, który obejmuje domeny BlocksWorld, Mystery BlocksWorld i Logistics Planning. Mystery BlocksWorld jest szczególnie trudne, ponieważ zaciemnia nazwy predykrujące, aby zapobiec dopasowaniu wzoru; Wcześniejsze modele zgłosiły mniej niż 5% ważności tego zadania bez wsparcia narzędzia. Dzięki instruction pddl model LAMA-3-8B osiągnął do 94% ważnych planów na bloksworld. W tajemnicy blokssworld ramy wytwarzały ulepszenia rzędów wielkości, zgłoszone jako 64 razy lepsze niż modele wyjściowe. W dziedzinie logistyki odnotowano również znaczny wzrost ważnych planów. We wszystkich domenach ramy wykazały do 66% bezwzględnej poprawy w generowaniu prawidłowych planów w porównaniu z nieograniczonymi liniami bazowymi. Wydajność została dodatkowo ulepszona, stosując szczegółowe informacje zwrotne w sprawach walidacji i dłuższe budżety zwrotne podczas szkolenia. To podejście neuro-symboliczne uzasadnia rozumowanie LLM w formalnej semantyce, które są automatycznie sprawdzane. Jego obecny zakres jest ograniczony do klasycznych domen w dziedzinie domeny planowania (PDDL) i wymaga VAL jako wyroczni zewnętrznej. Metoda pokazuje użyteczność rurociągów agentów, które mogą pomieścić weryfikator, podczas gdy rozszerzenia planowania czasowego, numerycznego i wrażliwego na koszty pozostają otwarte.





