Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SciMaster : Vers des agents d'IA scientifiques à usage général, partie I. X-Master comme fondation : pouvons-nous diriger le dernier examen de l'humanité ?

Created by
  • Haebom

Auteur

Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen

Contour

Dans cet article, nous présentons une étude évaluant les agents d'IA scientifiques à l'aide d'une mesure extrêmement difficile appelée Humanity's Last Examination (HLE), afin d'atteindre l'objectif de longue date d'accélérer la découverte scientifique grâce aux agents d'intelligence artificielle (IA). À cette fin, nous présentons X-Master, un agent d'inférence augmenté par des outils, conçu pour interagir de manière flexible avec des outils externes et imiter les chercheurs humains. X-Master conceptualise le code comme un langage d'interaction, exploitant de manière flexible les bibliothèques Python intégrées et les outils personnalisés pour augmenter l'inférence. Il étend également ses capacités en améliorant systématiquement l'étendue et la profondeur de l'inférence grâce à des flux de travail d'agents distribués et empilés, X-Masters. X-Masters atteint un nouveau score de pointe de 32,1 % au HLE, surpassant OpenAI et Google DeepMind et franchissant la barre des 30 % pour la première fois. Cette étude fait progresser notre compréhension de la résolution de tâches complexes et fournit une expérience précieuse pour la formation future des modèles.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche qui combine des agents d’inférence augmentés par des outils et des flux de travail distribués pour améliorer considérablement les performances de l’IA pour résoudre des problèmes scientifiques.
Nous avons démontré les capacités de notre agent d’IA en obtenant des performances de pointe sur un benchmark exigeant appelé HLE.
Il approfondit votre compréhension de la résolution de tâches complexes et fournit une expérience précieuse pour le développement de futurs modèles d'IA.
Il est publié en open source pour encourager son utilisation et son développement par d'autres chercheurs.
Limitations:
X-Les gains de performance au niveau Master peuvent être limités à un niveau de référence spécifique (HLE). La généralisation à d'autres problèmes scientifiques nécessite des études plus approfondies.
X-Une analyse plus approfondie est nécessaire sur l'efficacité et l'évolutivité des flux de travail distribués dans Masters.
Le Limitations du HLE lui-même (par exemple, il peut ne pas couvrir l'ensemble de la découverte scientifique) peut affecter l'évaluation des performances du X-Master.
ÉTant donné que le type et la qualité des outils et des bibliothèques utilisés ont un impact significatif sur les performances de __T32486_____-Master, il convient de prendre en compte le biais dans la sélection des outils.
👍