Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TextQuests: ¿Qué tan buenos son los LLM en videojuegos basados en texto?

Created by
  • Haebom

Autor

Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks

Describir

Este artículo propone TextQuests, un novedoso modelo de referencia para evaluar agentes de IA en entornos interactivos complejos que reflejan problemas del mundo real. Mientras que los modelos de referencia existentes se centran en el uso de herramientas o el rendimiento en tareas estructuradas, TextQuests evalúa el razonamiento autónomo a largo plazo basándose en el juego de ficción interactiva de Infocom. Al restringir el uso de herramientas externas, TextQuests se centra en evaluar el razonamiento contextual inherente a largo plazo del agente, el aprendizaje por ensayo y error y la capacidad persistente para la resolución de problemas. Evalúa la capacidad de resolución de problemas autónoma del agente de IA mediante juegos complejos que a un jugador humano le llevarían más de 30 horas. Publicamos el modelo de referencia en https://textquests.ai .

Takeaways, Limitations

Takeaways:
Proporciona un nuevo punto de referencia para evaluar las capacidades de razonamiento y resolución de problemas a largo plazo de los agentes de IA en entornos complejos del mundo real.
Al evaluar las capacidades inherentes del agente sin depender de herramientas externas, se pueden evaluar con mayor precisión las capacidades reales de los agentes de IA.
Aprovechando la complejidad de los juegos de Infocom, ofrecemos un entorno de evaluación amplio que puede evaluar una amplia gama de habilidades de resolución de problemas.
Contribuya al avance de la comunidad de investigación de IA mediante el lanzamiento del punto de referencia TextQuests.
Limitations:
Las TextQuests se limitan a juegos basados en texto, lo que dificulta su aplicación a otros tipos de entornos o métodos de interacción.
Debido a la complejidad del juego, completar el punto de referencia puede requerir tiempo y recursos significativos.
Tal vez sea necesario realizar más investigaciones sobre las métricas de evaluación y los métodos de medición de los puntos de referencia.
Existe la posibilidad de que los resultados de la evaluación estén sesgados hacia ciertos tipos de juegos.
👍