Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Created by
  • Haebom

作者

Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

概要

本論文は、科学コンピューティングなどの専門分野におけるグラフィカルユーザーインターフェース(GUI)のための自律エージェントの設計上の問題を解決するために、長期計画と正確な実行の両方が必要な状況で、既存の一般的なエージェントと専門的なエージェントの限界を克服する新しいアプローチを提示します。既存のアプローチは計画能力と実行能力との間に矛盾があるが、本論文で提示されているCODAは一般的な計画者(Cerebrum)と専門家の実行者(Cerebellum)を統合する学習可能な構成型フレームワークです。 CODAは2段階のパイプラインで訓練されます。最初のステップであるSpecializationでは、各科学アプリケーションに対して専門の計画者を個別にトレーニングし、2番目のステップであるGeneralizationはすべての成功した軌跡を集めて、最終計画者のための指導学習の微調整に使用します。これにより、CODAは強力な実行能力とドメイン間の一般化能力の両方を備えています。 ScienceBoardベンチマークの4つの課題では、CODAは既存の方法を大幅に上回り、オープンソースモデルの中で最高のパフォーマンスを達成します。

Takeaways、Limitations

Takeaways:
科学コンピューティングの分野におけるGUI自律エージェントの性能向上のための新しいアプローチの提示
一般的な計画能力と専門的な実行能力を組み合わせることで、既存の限界を克服
学習可能な構成型フレームワークを通じて経験から適応可能
限られたデータ環境でも効果的なパフォーマンスを実現
オープンソースモデル中の最高性能記録
Limitations:
提示されたフレームワークの一般化能力の追加評価が必要
さまざまな科学分野とより複雑なGUI環境へのスケーラビリティ検証が必要
ScienceBoardベンチマーク以外のベンチマークでのパフォーマンス評価が必要
トレーニングデータの品質への依存度評価が必要
👍