Dans cet article, nous présentons une étude évaluant les agents d'IA scientifiques à l'aide d'une mesure extrêmement difficile appelée Humanity's Last Examination (HLE), afin d'atteindre l'objectif de longue date d'accélérer la découverte scientifique grâce aux agents d'intelligence artificielle (IA). À cette fin, nous présentons X-Master, un agent d'inférence augmenté par des outils, conçu pour interagir de manière flexible avec des outils externes et imiter les chercheurs humains. X-Master conceptualise le code comme un langage d'interaction, exploitant de manière flexible les bibliothèques Python intégrées et les outils personnalisés pour augmenter l'inférence. Il étend également ses capacités en améliorant systématiquement l'étendue et la profondeur de l'inférence grâce à des flux de travail d'agents distribués et empilés, X-Masters. X-Masters atteint un nouveau score de pointe de 32,1 % au HLE, surpassant OpenAI et Google DeepMind et franchissant la barre des 30 % pour la première fois. Cette étude fait progresser notre compréhension de la résolution de tâches complexes et fournit une expérience précieuse pour la formation future des modèles.