Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Limits of Innate Planning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Charles Schepanowski, Charles Ling

개요

대규모 언어 모델(LLM)은 많은 벤치마크에서 인상적인 결과를 달성하지만, 계획 및 상태 기반 추론 능력은 불분명합니다. 본 연구는 코드 실행이나 다른 도구 없이 8-퍼즐을 사용하여 이러한 능력을 직접적으로 연구했습니다. 8-퍼즐은 상태 추적과 목표 지향적 계획이 필요한 고전적인 문제이며, 단계별 평가가 가능합니다. 네 가지 모델을 일반적인 프롬프트 조건(Zero-Shot, Chain-of-Thought, Algorithm-of-Thought)과 계층적 교정 피드백을 사용하여 테스트했습니다. 피드백은 일부 모델-프롬프트 조합의 성공률을 향상시켰지만, 많은 성공적인 실행은 길고, 계산 비용이 많이 들고, 간접적이었습니다. 또한, 외부 이동 검증기를 사용하여 유효한 이동만 제공하는 방식으로 모델을 검사했습니다. 이러한 수준의 지원에도 불구하고, 어떤 모델도 이 환경에서 퍼즐을 해결하지 못했습니다. 질적 분석 결과, 모든 모델에서 두 가지 주요 결함이 나타났습니다: (1) 빈번한 유효하지 않은 이동으로 이어지는 불안정한 내부 상태 표현과 (2) 루프에 들어가거나 목표 상태까지의 거리를 줄이지 않는 작업을 선택하는 약한 휴리스틱 계획.

시사점, 한계점

LLM의 계획 능력에는 코드 인터프리터와 같은 외부 도구 없이 상당한 제한이 있음.
LLM은 명시적 상태 유지 및 구조적 검색을 위한 메커니즘이 필요함.
모델은 불안정한 내부 상태 표현으로 인해 유효하지 않은 이동을 자주 수행함.
모델은 약한 휴리스틱 계획으로 인해 루프에 빠지거나 목표 상태까지의 거리를 줄이지 못하는 행동을 선택함.
계층적 피드백은 일부 모델의 성공률을 향상시켰지만, 실행의 효율성은 낮음.
👍