Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

Created by
  • Haebom

저자

Jungkoo Kang

개요

본 논문은 대규모 언어 모델(LLM)의 작업 흐름 계획 및 추론 능력 평가를 위한 확장 가능한 평가 데이터 부족 문제를 해결하고자, 자동화된 파이프라인 NL2Flow를 제시합니다. NL2Flow는 문제를 구조화된 중간 표현으로 생성하고, 이를 자연어와 형식적 PDDL로 변환합니다. 2296개의 저난이도 문제 데이터셋을 사용하여 여러 오픈소스, 지시 조정된 LLM을 평가한 결과, 최고 성능 모델은 유효한 계획 생성에서 86%, 최적 계획 생성에서 69%의 성공률을 달성했습니다. 회귀 분석 결과, 문제 특성의 영향은 모델과 프롬프트 디자인에 따라 달라지는 것으로 나타났습니다. 특히, 자연어 문제를 구조화된 JSON 표현으로 변환한 후 기호적 계획을 수행하는 것이 성공률을 크게 향상시켰다는 점을 통해 신경 기호 통합의 이점을 보여줍니다. 이러한 결과는 LLM 추론에서의 오류 원인을 이해하는 것이 복잡한 작업으로 확장될 때 중요함을 강조합니다.

시사점, 한계점

시사점:
LLM의 작업 흐름 계획 및 추론 능력 평가를 위한 새로운 자동화된 파이프라인 NL2Flow 제시
LLM의 계획 생성 성능에 대한 정량적 평가 및 분석 제공 (유효 계획 생성 86%, 최적 계획 생성 69%)
신경 기호 통합의 효과를 실험적으로 증명 (JSON 중간 표현 활용)
문제 특성과 모델/프롬프트 디자인 간의 상호 작용에 대한 통찰력 제공
LLM 추론 성능 향상을 위한 방향 제시 (오류 원인 분석 및 해결)
한계점:
평가에 사용된 문제의 난이도가 낮음 (저난이도 문제 2296개)
사용된 LLM이 오픈소스에 국한됨
더 복잡한 작업에 대한 LLM 추론 성능 평가 및 분석 필요
모델과 프롬프트 디자인에 따른 성능 차이에 대한 심층적인 분석 필요
👍