Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

OpenCUA : fondements ouverts pour les agents informatiques

Created by
  • Haebom

Auteur

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Haotian Yao, Ziwei Chen, Qizheng Gu, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

Contour

Cet article propose OpenCUA, un framework open source pour améliorer le potentiel et l'accessibilité des agents assistés par ordinateur (AAO). OpenCUA se compose d'une infrastructure d'annotation qui capture les démonstrations assistées par ordinateur ; d'AgentNet, un ensemble de données de tâches assistées par ordinateur à grande échelle couvrant trois systèmes d'exploitation et plus de 200 applications et sites web ; et d'un pipeline évolutif qui convertit ces démonstrations en paires état-action. Le modèle OpenCUA-32B a obtenu un taux de réussite de 34,8 % au benchmark OSWorld-Verified, obtenant ainsi les meilleures performances parmi les modèles open source et surpassant OpenAI CUA (GPT-4o). Cette étude pose les bases de la recherche sur les AAO en publiant les outils d'annotation, les ensembles de données, le code et les modèles.

Takeaways, Limitations

Takeaways:
Faire progresser et améliorer l’accessibilité de la recherche CUA en fournissant un cadre CUA open source.
Lancement d'AgentNet, un ensemble de données de tâches informatiques à grande échelle.
Surmonter les limitations de performances des modèles open source avec le modèle OpenCUA-32B.
Vérification des performances de généralisation dans divers domaines et amélioration des performances grâce à des calculs de temps de test accrus.
Limitations:
Les performances actuelles ne sont pas encore parfaites (taux de réussite de 34,8 %) et des recherches supplémentaires sont nécessaires pour atteindre des performances plus élevées.
D’autres améliorations pourraient être nécessaires pour augmenter la portée et la diversité de l’ensemble de données AgentNet.
Possible biais envers des systèmes d’exploitation et des applications spécifiques.
👍