Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation

Created by
  • Haebom

作者

Yincen Qu、Huan Xiao、Feng Li、Gregory Li、Hui Zhou、Xiangying Dai

概要

この論文は旅行計画のための包括的なベンチマークを紹介します。このベンチマークは、細かい基準を単一の報酬に統合し、計画品質を直接比較し、強化学習(RL)とのシームレスな統合を可能にします。研究者は旅行専門家のコメントと適切な一致度(60.75%)を達成する評価者を開発し、実際のユーザー意図を一般化するために4,870のクエリ(219の実際の自由形式要求を含む)からなる大規模なデータセットを公開しました。様々な方法およびLLMにわたって広範囲の実験を行った結果、RLは一般に、プロンプトベースおよびマップ学習ベースよりも旅の実現可能性を向上させ、より高い統合補償スコアを得ることを発見した。

Takeaways、Limitations

Takeaways:
旅行計画の品質を直接比較し、強化学習と統合できる単一の報酬ベースのベンチマークを提示します。
旅行専門家のコメントと適切な一致を示す評価者の開発。
実際のユーザー意図を一般化するための大規模なデータセットの開示。
様々な方法論とLLMを用いた広範な実験の実行とRLの効果の実証
Limitations:
評価者の専門家のコメントとの一致度は60.75%で完璧ではありません。
ベンチマークの一般化能力の追加検証が必要です。
👍