この論文は旅行計画のための包括的なベンチマークを紹介します。このベンチマークは、細かい基準を単一の報酬に統合し、計画品質を直接比較し、強化学習(RL)とのシームレスな統合を可能にします。研究者は旅行専門家のコメントと適切な一致度(60.75%)を達成する評価者を開発し、実際のユーザー意図を一般化するために4,870のクエリ(219の実際の自由形式要求を含む)からなる大規模なデータセットを公開しました。様々な方法およびLLMにわたって広範囲の実験を行った結果、RLは一般に、プロンプトベースおよびマップ学習ベースよりも旅の実現可能性を向上させ、より高い統合補償スコアを得ることを発見した。