본 논문은 대규모 언어 모델(LLM)의 작업 흐름 계획 및 추론 능력 평가를 위한 확장 가능한 평가 데이터 부족 문제를 해결하고자, 자동화된 파이프라인 NL2Flow를 제시합니다. NL2Flow는 문제를 구조화된 중간 표현으로 생성하고, 이를 자연어와 형식적 PDDL로 변환합니다. 2296개의 저난이도 문제 데이터셋을 사용하여 여러 오픈소스, 지시 조정된 LLM을 평가한 결과, 최고 성능 모델은 유효한 계획 생성에서 86%, 최적 계획 생성에서 69%의 성공률을 달성했습니다. 회귀 분석 결과, 문제 특성의 영향은 모델과 프롬프트 디자인에 따라 달라지는 것으로 나타났습니다. 특히, 자연어 문제를 구조화된 JSON 표현으로 변환한 후 기호적 계획을 수행하는 것이 성공률을 크게 향상시켰다는 점을 통해 신경 기호 통합의 이점을 보여줍니다. 이러한 결과는 LLM 추론에서의 오류 원인을 이해하는 것이 복잡한 작업으로 확장될 때 중요함을 강조합니다.