Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents

Created by
  • Haebom

作者

Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di, Xuehai He, Xin Eric Wang

概要

本論文は、実生活課題を遂行する対話型実装エージェントを構築するための神経記号常識推論フレームワークであるJARVISを提案する。既存の嗜好的方法とエンドツーエンドのディープラーニングモデルの限界を克服するために、大規模言語モデル(LLM)を活用して言語理解とサブターゲット計画のための嗜好表現を獲得し、視覚的観察から意味マップを構築します。その後、シンボルモジュールは、課題レベルと行動レベルの常識に基づいて、サブ目標計画と行動生成を実行します。 TEAChデータセットを使用した実験の結果、JARVISは3つの対話ベースの実装課題(EDH、TfD、TATC)で最先端のパフォーマンスを達成し、特にEDH課題で成功率を6.1%から15.8%に大幅に向上させました。また、課題パフォーマンスに影響を与える重要な要素を体系的に分析し、少数ショット設定でも優れた性能を示すことを実証し、Alexa Prize SimBot Public Benchmark Challengeで1位を獲得しました。

Takeaways、Limitations

Takeaways:
大規模言語モデルとシンボリック推論を組み合わせることで,インタラクティブな実装エージェントの性能と解釈の可能性を改善できることを示した。
TEAChデータセットで最先端のパフォーマンスを達成し、Alexa Prize SimBot Public Benchmark Challenge 1位で実際のアプリケーション可能性を実証。
少数ショット学習環境でも優れた性能を発揮。
課題のパフォーマンスに影響を与える要因の体系的な分析を提供します。
Limitations:
LLM依存性:LLMのパフォーマンスに依存し、LLMの制限がJARVISのパフォーマンスに影響を与える可能性があります。
データ依存性:TEAChデータセットのパフォーマンスは優れていますが、他のデータセットの一般化パフォーマンスにはさらなる研究が必要です。
常識の定義と表現の限界:使用される常識の種類と表現方法は限られている可能性があり、より豊富で多様な常識を組み込むことが必要です。
現実世界の適用の難しさ:実際の世界の複雑さと不確実性を完全に処理するには、追加の研究が必要です。
👍