Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Improving Human-AI Coordination through Online Adversarial Training and Generative Models

Created by
  • Haebom

作者

Paresh Chaudhary, Yancheng Liang, Daphne Chen, Simon S. Du, Natasha Jaques

概要

この論文は、新しい人々と協力する能力が、家庭用ロボット工学から自律走行まで、多くの経済的価値を持つAI作業の重要な要素であることを指摘しています。ただし、新しい人に一般化するには、人間の行動の多様性を捉えるデータを使用して訓練する必要があります。敵対的なトレーニングは、動的データの生成を可能にし、エージェントが堅牢であることを保証する有望な方法です。エージェントのパフォーマンスが新しい敵対的なデータ生成に影響を与え、このデータを即座にエージェントトレーニングに使用できるフィードバックループを作成します。しかし、協力的な作業に敵対的な訓練を適用することは困難です。どのように敵対的な協力者を訓練することができますか?この論文では、事前訓練された生成モデルを使用して有効な協力エージェントポリシーをシミュレートし、敵対的な訓練を使用して後悔を最大化する新しい戦略であるGoerative Online Adversarial Training(GOAT)を提案します。 GOATフレームワークでは、GOATは、学習ポリシーである協力者エージェントが低性能を示す調整戦略について、生成モデルの潜在スペースを動的に検索します。 GOATは、さまざまな困難な対話シナリオに協力者を公開し、より良い一般化を可能にします。生成モデルを固定して敵対的な悪用を避けることで、現実的な調整戦略を維持します。実際の人間パートナーを使用してGOATを評価し、結果はOvercookedベンチマークで最先端のパフォーマンスを示し、さまざまな人間の行動に対する一般化効果を強調しています。

Takeaways、Limitations

Takeaways:
事前訓練された生成モデルと敵対的な訓練を組み合わせて、協力的なAIエージェントを効果的に訓練する新しい方法(GOAT)を提示します。
さまざまな人間の行動に対する一般化能力を向上させ、実世界の適用性を高めます。
Overcookedベンチマークで最先端のパフォーマンスを達成し、方法の有効性を実証します。
Limitations:
生成モデルの品質に依存し、生成モデルが不正確または不完全な場合、パフォーマンスが低下する可能性があります。
Overcookedベンチマークの評価結果のみが提示され、他の作業の一般化の可能性は不確実です。
敵対的な訓練の性質上、訓練プロセスは複雑で計算コストが高くなる可能性があります。
👍