Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

Created by
  • Haebom

저자

Jie-Jing Shao, Bo-Wen Zhang, Xiao-Wen Yang, Baizhi Chen, Si-Yu Han, Wen-Da Wei, Guohao Cai, Zhenhua Dong, Lan-Zhe Guo, Yu-feng Li

개요

본 논문은 실제 세계 개발을 위한 언어 에이전트의 발전, 특히 여행 계획 분야에 초점을 맞추고 있다. 기존 벤치마크들이 인공적인 질의와 제한적인 제약에 초점을 맞춰 실제 요구사항을 단순화한 것과 달리, 본 논문은 다양하고 개방적인 인간의 요구를 가진 다일, 다중 POI 여행 계획 시나리오에서 언어 에이전트를 평가하는 격차를 해결한다. 1,154명의 참가자로부터 수집된 진짜 중국 여행 요구사항을 기반으로 한 최초의 개방형 벤치마크인 ChinaTravel을 소개한다. 확장성 있는 평가를 위해 실행 가능성, 제약 만족도, 선호도 비교를 포함하는 구성적으로 일반화 가능한 도메인 특정 언어(DSL)를 설계했다. 실험 연구는 여행 계획에서 신경 기호 에이전트의 잠재력을 보여주며, 인간 질의에 대해 37.0%의 제약 만족률을 달성하여 순수 신경망 모델보다 10배 향상되었다. 이러한 결과는 ChinaTravel을 복잡한 실제 세계 계획 시나리오에서 언어 에이전트를 발전시키기 위한 중요한 이정표로 강조한다.

시사점, 한계점

시사점:
실제 중국 여행 데이터를 기반으로 한, 개방형이고 다양한 요구사항을 포함하는 새로운 여행 계획 벤치마크 ChinaTravel을 제시.
신경 기호 에이전트가 순수 신경망 모델보다 여행 계획에서 훨씬 더 나은 성능을 보임을 실험적으로 증명 (10배 향상).
구성적으로 일반화 가능한 도메인 특정 언어(DSL)를 설계하여 확장성 있는 평가를 가능하게 함.
복잡한 실제 세계 계획 시나리오에서 언어 에이전트 발전에 중요한 이정표 제시.
한계점:
ChinaTravel 벤치마크는 중국 여행 데이터에 기반하므로, 다른 문화권의 여행 계획에는 일반화되지 않을 수 있음.
현재 벤치마크의 규모(1,154명 참가자)가 더 큰 규모의 데이터셋에 비해 상대적으로 작을 수 있음.
신경 기호 에이전트의 성능 향상에도 불구하고, 여전히 상당한 수준의 제약 불만족(63%)이 존재함. 더욱 개선된 알고리즘 개발이 필요함.
👍