2025년 기준, DeepSeek R1, Gemini 2.5 Pro, GPT-5의 종단간 계획(end-to-end planning) 성능을 평가한 연구. 모델은 PDDL 도메인 및 작업 설명으로부터 계획을 생성하도록 프롬프트 되었으며, 국제 계획 대회(International Planning Competition)의 Learning Track의 일부 도메인을 사용하여 평가되었다. GPT-5는 표준 PDDL 도메인에서 LAMA와 경쟁력 있는 성능을 보였으며, PDDL 도메인과 작업이 난독화되었을 때 모든 LLM의 성능이 저하되었지만, 이전 세대의 모델에 비해 덜 심각하게 저하되었다.