Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
TextQuests : Dans quelle mesure les LLM sont-ils performants en matière de jeux vidéo textuels ?
Created by
Haebom
Auteur
Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks
Contour
Cet article propose TextQuests, un nouveau benchmark pour l'évaluation des agents IA dans des environnements interactifs complexes reflétant des problèmes réels. Alors que les benchmarks existants se concentrent sur l'utilisation d'outils ou la performance de tâches structurées, TextQuests évalue le raisonnement autonome à long terme basé sur le jeu de fiction interactif Infocom. En limitant l'utilisation d'outils externes, TextQuests se concentre sur le raisonnement contextuel à long terme inhérent à l'agent, son apprentissage par essais-erreurs et ses capacités persistantes de résolution de problèmes. Il évalue les capacités de résolution autonome de problèmes de l'agent IA à travers des jeux complexes qui nécessiteraient plus de 30 heures de jeu pour un joueur humain. Nous publions ce benchmark à l'adresse https://textquests.ai .
Fournit une nouvelle référence pour évaluer les capacités de raisonnement à long terme et de résolution de problèmes des agents d’IA dans des environnements complexes du monde réel.
◦
En évaluant les capacités inhérentes de l’agent sans recourir à des outils externes, les véritables capacités des agents IA peuvent être évaluées plus précisément.
◦
En tirant parti de la complexité des jeux Infocom, nous proposons un environnement d’évaluation large qui peut évaluer un large éventail de compétences en résolution de problèmes.
◦
Contribuez à l’avancement de la communauté de recherche en IA grâce à la publication du benchmark TextQuests.
•
Limitations:
◦
Les TextQuests sont limités aux jeux textuels, ce qui les rend difficiles à appliquer à d'autres types d'environnements ou de méthodes d'interaction.
◦
En raison de la complexité du jeu, terminer le benchmark peut nécessiter beaucoup de temps et de ressources.
◦
Des recherches supplémentaires pourraient être nécessaires sur les paramètres d’évaluation et les méthodes de mesure des repères.
◦
Il est possible que les résultats de l’évaluation soient biaisés en faveur de certains types de jeux.