Recentemente il MIT CSAIL ha pubblicato un paper che alza l’asticella nella capacità dei Large Language Models (LLMs) di generare piani complessi in domini simbolici, ottenendo fino al 94% di accuratezza in particolari benchmark. Il lavoro si chiama “Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning”, noto anche come PDDL-INSTRUCT.

Domini come Blocksworld, Mystery Blocksworld e Logistics sono classici nel planning simbolico: prevedono stati, azioni con precondizioni ed effetti, e la sfida è generare sequenze di azioni che partendo da uno stato iniziale raggiungano un obiettivo.

Nei modelli standard basati su LLM quali Llama-3 o simili, la generazione di piani multi-step spesso fallisce su dettagli logici: delle precondizioni non rispettate, effetti sbagliati o la mancata verifica dello stato finale. In questi scenari le performance erano basse.

PDDL-INSTRUCT supera questi limiti introducendo:

Chain-of-Thought istruzionale: durante l’addestramento si richiede al modello non solo di suggerire le azioni ma di esplicitare il ragionamento logico passo per passo “questa azione è applicabile perché le sue precondizioni sono soddisfatte”, “l’effetto aggiunge o toglie questi fatti dallo stato” ecc.

Validazione esterna tramite VAL: ogni step generato viene verificato con un validatore classico di piani (VAL) che controlla che l’azione proposta sia effettivamente applicabile nello stato corrente e che gli effetti siano corretti. Feedback può essere binario (valido/errore generico) o dettagliato (quale precondizione non era soddisfatta, quale effetto sbagliato).

Addestramento in due fasi: prima una fase base (instruction tuning) su esempi di piani corretti ed errati con spiegazioni del perché alcuni piani falliscono, poi una fase più sofisticata dove il modello è guidato a produrre ragionamenti completi e correggere i propri errori grazie al feedback del validatore.

Con questa combinazione, su Blocksworld il modello Llama-3 con PDDL-INSTRUCT raggiunge il 94% di piani validi nei task del benchmark PlanBench.

Anche se impressionante, il 94% ha senso solo per certi domini e sotto specifiche ipotesi:Mystery Blocksworld è ancora problematico: anche con PDDL-INSTRUCT il modello arriva a ~64% di validità, non 94. Logistics pure migliora molto, ma non raggiunge gli stessi livelli di Blocksworld, che è un dominio relativamente semplice, ben definito, con pochi ostacoli concettuali legati a sequenze logiche complesse o elementi temporali.

Non contempla ancora domini PDDL con effetti condizionali, temporali, costi diversi, o componenti dinamiche complesse.

Questo lavoro significa che stiamo entrando in un’era in cui gli LLM non sono più solo “generatori plausibili” ma possono diventare pianificatori affidabili, almeno in contesti formalizzati.

Impatti potenziali:Sistemi di agenti intelligenti che devono pianificare sequenze di operazioni, robotica, automazione di workflow complessi possono beneficiare di modelli che incorporano validazione logica esplicita.Riduzione del rischio nella generazione automatica di piani: meno errori logici, meno fallback manuali.

Possibilità di integrare questi metodi in pipeline ibride: l’LLM suggerisce + il validatore verifica + correzione iterativa

Per chi volesse leggere direttamente il paper e avere i dettagli tecniciEcco il link al paper su arXiv:Teaching LLMs to Plan:

Logical Chain-of-Thought Instruction Tuning for Symbolic Planning — Pulkit Verma, Ngoc La, Anthony Favier, Swaroop Mishra, Julie A. Shah. arXiv:2509.13351

PDF: https://arxiv.org/pdf/2509.13351

Pensare di avere un modello che genera piani con il 94% di accuratezza nel dominio Blocksworld è un po’ come se avessimo creato un pilota automatico che gestisce solo traghetti su laghi placidi: impressionante, ma la vera prova arriva quando metti la barca in mare agitato.

Val la pena investire non solo nella tecnologia, ma nel definire con chiarezza i domini, le grammatiche del dominio (il PDDL), i vincoli, le condizioni d’errore: è lì che nascono le falle più profonde nei sistemi ML/AI