Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Code-Driven Planning in Grid Worlds with Large Language Models

Created by
  • Haebom

저자

Ashwath Vaithinathan Aravindan, Zhisheng Tang, Mayank Kejriwal

개요

본 논문은 대규모 언어 모델(LLM)을 이용하여 해석 가능한 에이전트 정책을 코드로 합성함으로써 그리드 기반 작업을 해결하기 위한 반복적 프로그램 계획(IPP) 프레임워크를 제안합니다. 기존의 탐색이나 강화 학습에 의존하는 대신, LLM이 환경 상태를 행동 순서로 매핑하는 실행 가능한 프로그램을 출력하는 코드 생성을 정책 합성으로 사용합니다. 제안된 아키텍처는 직접 코드 생성, 의사 코드 조건화된 개선, 커리큘럼 기반 프롬프팅을 포함한 여러 프롬프팅 전략을 통합하지만, 작업 성능 피드백을 기반으로 코드를 업데이트하는 반복적 개선 메커니즘도 포함합니다. 6개의 주요 LLM과 2개의 어려운 그리드 기반 벤치마크(GRASP 및 MiniGrid)를 사용하여 접근 방식을 평가했습니다. IPP 프레임워크는 6개 모델 중 5개에서 10%에서 최대 10배까지 직접 코드 생성보다 향상된 성능을 보여주며 GRASP에 대한 새로운 최첨단 결과를 달성했습니다. IPP는 GPT-o3-mini에서 직접 솔루션을 유도하는 것보다 (MiniGrid에서 63%, GRASP에서 116% 향상) 상당히 우수한 성능을 보여 전체 접근 방식의 실행 가능성을 입증합니다. 모든 코드 생성 접근 방식의 계산 비용은 비슷합니다. 코드 생성은 직접 솔루션 유도보다 초기 프롬프팅 비용이 더 높지만(GPT-o3-mini의 경우 작업당 $0.08 대 인스턴스당 $0.002), 코드는 여러 인스턴스에 재사용할 수 있으므로 감가 상각 비용이 상당히 낮아집니다(전체 GRASP 벤치마크에서 GPT-o3-mini의 경우 400배).

시사점, 한계점

시사점:
LLM을 이용한 코드 생성을 통해 그리드 기반 작업에 대한 해석 가능하고 효율적인 에이전트 정책을 생성하는 새로운 방법 제시.
반복적 개선 메커니즘을 통해 직접 코드 생성보다 성능 향상 달성 (최대 10배).
GRASP 벤치마크에서 최첨단 성능 달성.
코드 재사용을 통한 감가 상각 비용 절감 효과.
한계점:
초기 프롬프팅 비용이 직접 솔루션 유도보다 높음.
사용된 LLM 모델에 대한 의존성.
다양한 그리드 기반 작업에 대한 일반화 성능에 대한 추가 연구 필요.
👍