Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NatureGAIA : repousser les limites des agents GUI grâce à un benchmark exigeant et un ensemble de données de trajectoire de haute qualité

Created by
  • Haebom

Auteur

Zihan Zheng, Tianle Cui, Chuwen Xie, Jiahui Zhang, Jiahui Pan, Lewei He, Qianglong Chen

Contour

Cet article propose NaturalGAIA, un nouveau benchmark basé sur le principe des voies causales (CPA), afin de pallier les limitations de précision, de reproductibilité et d'évolutivité des benchmarks d'évaluation existants, qui freinent le développement d'agents d'interface utilisateur graphique (GUI) basés sur des modèles de langage à grande échelle (LLM). NaturalGAIA fournit des critères d'évaluation rigoureux, entièrement automatisés et reproductibles en structurant les tâches complexes en une série d'étapes atomiques, vérifiables par programmation. De plus, pour pallier les défauts fonctionnels inhérents aux agents, nous développons LightManus, une architecture d'agent hiérarchique optimisée pour les tâches à long terme. Cette architecture permet de générer un ensemble de données de haute qualité, validé par l'homme, qui capture les schémas d'interaction diversifiés et autocorrectifs des LLM. À partir de cet ensemble de données, nous réalisons un réglage fin par apprentissage par renforcement (RFT) sur le modèle Qwen2.5-VL-7B. Les résultats expérimentaux démontrent que NaturalGAIA présente des défis importants, même pour les LLM les plus performants. Le modèle le plus performant, Claude-sonnet-4, atteint un taux de réussite pondéré (WPSR) de seulement 34,6 %. Si RFT a amélioré la capacité d'exécution de l'interface utilisateur graphique (WPSR) des petits modèles (passant de 3,3 % à 10,8 %), les performances se sont dégradées de manière significative dans les scénarios complexes, démontrant les limites de performance inhérentes aux petits modèles face à des tâches complètes intégrant perception, prise de décision et exécution. Cette étude fournit des critères d'évaluation rigoureux et un ensemble de données de haute qualité, offrant des orientations pour le développement futur des agents d'interface utilisateur graphique.

Takeaways, Limitations

Takeaways:
Nous présentons NaturalGAIA, un nouveau benchmark rigoureux et reproductible pour évaluer les agents GUI basés sur LLM.
Développement de LightManus, une architecture d'agent hiérarchique optimisée pour les tâches à long terme et génération d'ensembles de données de haute qualité.
Démonstration expérimentale de l'efficacité et des limites du RFT pour améliorer la capacité d'exécution de l'interface graphique de LLM.
Fournit une évaluation réaliste des capacités de performance de l'interface utilisateur graphique des LLM actuels de pointe.
Limitations:
Des recherches supplémentaires sont nécessaires sur l’évolutivité et la généralisabilité du benchmark NaturalGAIA.
Une analyse plus approfondie est nécessaire pour comprendre pourquoi l’efficacité du RFT varie considérablement en fonction de la taille du modèle.
Les repères doivent être élargis pour couvrir des tâches d’interface utilisateur graphique plus diverses et plus complexes.
La généralisabilité de l’architecture LightManus à d’autres LLM et tâches doit être vérifiée.
👍