[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MacOSWorld : une référence interactive multilingue pour les agents d'interface utilisateur graphique

Created by
  • Haebom

Auteur

Pei Yang, Hai Ci, Mike Zheng Shou

Contour

MacOSWorld est le premier benchmark complet pour l'évaluation des agents d'interface utilisateur graphique (IHM) dans l'environnement macOS. Il comprend 202 tâches d'interaction multilingues en 5 langues (anglais, chinois, arabe, japonais et russe) pour 30 applications (dont 28 spécifiques à macOS). Il surmonte les limites des benchmarks existants (centré sur l'anglais et spécifique au système d'exploitation) et inclut des modèles d'interface utilisateur graphique et des applications uniques sous macOS. Il inclut également un sous-ensemble de benchmarks de sécurité pour prendre en compte la vulnérabilité des agents d'interface utilisateur graphique aux attaques par tromperie. L'évaluation de six agents d'interface utilisateur graphique montre que les agents propriétaires basés sur ordinateur affichent un taux de réussite supérieur à 30 %, tandis que les modèles de recherche légers open source affichent un taux de réussite inférieur à 5 %, soulignant la nécessité d'une adaptation au domaine macOS. Les benchmarks multilingues révèlent des faiblesses courantes, notamment en arabe, avec une dégradation moyenne des performances de 28,8 % par rapport à l'anglais. Les résultats du benchmark de sécurité soulignent que les attaques par tromperie sont plus fréquentes et nécessitent une attention immédiate. macOSWorld est disponible à l' adresse https://github.com/showlab/macosworld .

Takeaways, Limitations_

Takeaways:
Fournit la première référence complète pour évaluer les performances de l'agent GUI dans les environnements macOS.
Surmonter les limites des benchmarks existants avec des applications exclusivement macOS et une prise en charge multilingue.
Nous présentons les résultats d’une analyse comparative de sécurité montrant la vulnérabilité des agents GUI aux attaques de tromperie.
Soulignez l’importance de l’adaptation du domaine macOS grâce aux différences de performances entre les modèles open source et propriétaires.
Analyse des différences de performance par langue et suggestions d'amélioration grâce à un support multilingue.
Limitations:
Les types d’agents d’interface graphique actuellement inclus dans le benchmark peuvent être limités.
Il pourrait être nécessaire d’évaluer des types d’attaques de tromperie plus divers.
MacOSWorld est optimisé pour l'environnement spécifique à macOS, la généralisation à d'autres environnements de système d'exploitation peut donc être limitée.
Il peut y avoir un manque de description détaillée du type et des caractéristiques de l'agent GUI utilisé dans l'évaluation.
👍