Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation

Created by
  • Haebom

저자

Yincen Qu, Huan Xiao, Feng Li, Gregory Li, Hui Zhou, Xiangying Dai

개요

본 논문은 여행 계획을 위한 포괄적인 벤치마크를 소개한다. 이 벤치마크는 미세한 기준들을 단일 보상으로 통합하여 계획 품질을 직접 비교하고 강화 학습(RL)과의 원활한 통합을 가능하게 한다. 연구진은 여행 전문가 주석과 적절한 일치도(60.75%)를 달성하는 평가자를 개발했으며, 실제 사용자 의도를 일반화하기 위해 4,870개의 쿼리(219개의 실제 자유 형식 요청 포함)로 구성된 대규모 데이터 세트를 공개했다. 다양한 방법과 LLM에 걸쳐 광범위한 실험을 수행한 결과, RL이 일반적으로 프롬프트 기반 및 지도 학습 기반보다 여정의 실현 가능성을 향상시키며 더 높은 통합 보상 점수를 얻는다는 것을 발견했다.

시사점, 한계점

시사점:
여행 계획의 품질을 직접 비교하고 강화 학습과 통합할 수 있는 단일 보상 기반 벤치마크 제시.
여행 전문가 주석과 적절한 일치도를 보이는 평가자 개발.
실제 사용자 의도를 일반화하기 위한 대규모 데이터 세트 공개.
다양한 방법론과 LLM을 이용한 광범위한 실험 수행 및 RL의 효과 입증.
한계점:
평가자의 전문가 주석과의 일치도가 60.75%로 완벽하지 않음.
벤치마크의 일반화 능력에 대한 추가적인 검증 필요.
👍