CAREL(Cross-modal Auxiliary REinforcement Learning)は、言語で導かれる目標達成強化学習問題における環境内命令に基づく新しいフレームワークです。ビデオテキスト検索の分野に触発された補助損失関数と、環境内の進捗状況を自動的に追跡する新しい方法である instruction tracking を使用します。さまざまなタスクや環境でモデルの一般化能力を向上させることに焦点を当てており、目標達成シナリオでは、エージェントが環境の文脈内で命令のさまざまな部分を理解して、タスク全体を正常に完了できるようにします。実験結果,マルチモーダル強化学習問題における優れたサンプル効率と体系的な一般化性能を示した。