[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

Created by
  • Haebom

저자

Alexandru Coca, Mark Gaynor, Zhenxing Zhang, Jianpeng Cheng, Bo-Hsiang Tseng, Pete Boothroyd, Hector Martinez Alonso, Diarmuid O Seaghdha, Anders Johannsen

개요

본 논문은 대규모 언어 모델(LLM)을 활용하여 복잡한 작업 실행이 가능한 디지털 어시스턴트를 구축하는 가능성을 평가한다. 이러한 어시스턴트는 사전 훈련된 프로그래밍 지식을 기반으로 어시스턴트 라이브러리에 정의된 객체와 함수를 조합하여 다단계 목표를 실행하는 작업 실행 프로그램을 생성한다. 이를 위해 연구진은 어시스턴트 라이브러리 시뮬레이션과 사람이 보조하는 LLM 데이터 생성 엔진으로 구성된 ASPERA 프레임워크를 개발했다. ASPERA 엔진은 개발자가 복잡한 사용자 질의, 시뮬레이션 상태 및 해당 검증 프로그램으로 구성된 고품질 작업의 LLM 생성을 안내하여 데이터 가용성 및 평가 강건성 문제를 해결한다. 연구진은 ASPERA를 사용하여 생성된 250개의 어려운 작업으로 구성된 평가 데이터 세트인 Asper-Bench도 함께 공개하며, 이를 통해 사용자 정의 어시스턴트 라이브러리를 기반으로 하는 프로그램 생성이 종속성 없는 코드 생성에 비해 LLM에 상당한 어려움을 준다는 것을 보여준다.

시사점, 한계점

시사점:
LLM을 이용한 복잡한 작업 실행이 가능한 디지털 어시스턴트 개발 가능성 제시
고품질 작업 데이터 생성을 위한 ASPERA 프레임워크 및 Asper-Bench 데이터셋 제공
사용자 정의 어시스턴트 라이브러리 기반 프로그램 생성의 어려움을 LLM 관점에서 제시
한계점:
ASPERA 프레임워크의 성능 및 일반화 가능성에 대한 추가적인 연구 필요
Asper-Bench 데이터셋의 규모 및 다양성 확장 필요
실제 환경 적용 시 발생할 수 있는 문제점 및 해결 방안에 대한 추가 연구 필요
👍