ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution
Created by
Haebom
저자
Alexandru Coca, Mark Gaynor, Zhenxing Zhang, Jianpeng Cheng, Bo-Hsiang Tseng, Pete Boothroyd, Hector Martinez Alonso, Diarmuid O Seaghdha, Anders Johannsen
개요
본 논문은 대규모 언어 모델(LLM)을 활용하여 복잡한 작업 실행이 가능한 디지털 어시스턴트를 구축하는 가능성을 평가한다. 이러한 어시스턴트는 사전 훈련된 프로그래밍 지식을 기반으로 어시스턴트 라이브러리에 정의된 객체와 함수를 조합하여 다단계 목표를 실행하는 작업 실행 프로그램을 생성한다. 이를 위해 연구진은 어시스턴트 라이브러리 시뮬레이션과 사람이 보조하는 LLM 데이터 생성 엔진으로 구성된 ASPERA 프레임워크를 개발했다. ASPERA 엔진은 개발자가 복잡한 사용자 질의, 시뮬레이션 상태 및 해당 검증 프로그램으로 구성된 고품질 작업의 LLM 생성을 안내하여 데이터 가용성 및 평가 강건성 문제를 해결한다. 연구진은 ASPERA를 사용하여 생성된 250개의 어려운 작업으로 구성된 평가 데이터 세트인 Asper-Bench도 함께 공개하며, 이를 통해 사용자 정의 어시스턴트 라이브러리를 기반으로 하는 프로그램 생성이 종속성 없는 코드 생성에 비해 LLM에 상당한 어려움을 준다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
LLM을 이용한 복잡한 작업 실행이 가능한 디지털 어시스턴트 개발 가능성 제시
◦
고품질 작업 데이터 생성을 위한 ASPERA 프레임워크 및 Asper-Bench 데이터셋 제공