본 논문은 대규모 언어 모델(LLM)의 계획 능력을 자연어 처리(NLP) 과제로 접근하여, LLM이 생성한 계획의 질적 평가와 복구 파이프라인을 제안합니다. LLM이 생성한 계획은 종종 오류나 허구적인 행동을 포함하기 때문에, 기존의 성공률 중심 평가 방식 대신 NLP 기반 평가와 세 단계의 계획 복구 과정(NLP 조작 및 기호적 계획자 활용)을 통해 LLM 계획의 품질을 종합적으로 분석합니다. 실험 결과, LLM의 계획 생성 과정에서 명확한 추론 능력이 드러나지 않았으며, 제안된 파이프라인 역시 기존의 기호적 계획자 수준의 품질과 신뢰성에는 미치지 못함을 보여줍니다. 평균적으로 계획의 처음 2.65개 행동만 실행 가능했고, 기호적 계획자를 통해 생성된 계획의 평균 길이는 8.4개 행동이었습니다. 파이프라인 적용으로 행동의 질은 향상되었고, 전체 성공률은 21.9%에서 27.5%로 증가했습니다.