Cet article propose NaturalGAIA, un nouveau benchmark basé sur le principe des voies causales (CPA), afin de pallier les limitations de précision, de reproductibilité et d'évolutivité des benchmarks d'évaluation existants, qui freinent le développement d'agents d'interface utilisateur graphique (GUI) basés sur des modèles de langage à grande échelle (LLM). NaturalGAIA fournit des critères d'évaluation rigoureux, entièrement automatisés et reproductibles en structurant les tâches complexes en une série d'étapes atomiques, vérifiables par programmation. De plus, pour pallier les défauts fonctionnels inhérents aux agents, nous développons LightManus, une architecture d'agent hiérarchique optimisée pour les tâches à long terme. Cette architecture permet de générer un ensemble de données de haute qualité, validé par l'homme, qui capture les schémas d'interaction diversifiés et autocorrectifs des LLM. À partir de cet ensemble de données, nous réalisons un réglage fin par apprentissage par renforcement (RFT) sur le modèle Qwen2.5-VL-7B. Les résultats expérimentaux démontrent que NaturalGAIA présente des défis importants, même pour les LLM les plus performants. Le modèle le plus performant, Claude-sonnet-4, atteint un taux de réussite pondéré (WPSR) de seulement 34,6 %. Si RFT a amélioré la capacité d'exécution de l'interface utilisateur graphique (WPSR) des petits modèles (passant de 3,3 % à 10,8 %), les performances se sont dégradées de manière significative dans les scénarios complexes, démontrant les limites de performance inhérentes aux petits modèles face à des tâches complètes intégrant perception, prise de décision et exécution. Cette étude fournit des critères d'évaluation rigoureux et un ensemble de données de haute qualité, offrant des orientations pour le développement futur des agents d'interface utilisateur graphique.