Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Establecer las mejores prácticas para construir puntos de referencia de agencia rigurosos

Created by
  • Haebom

Autor

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Jasjeet Sekhon, Jacob Steinhardt, Antony Kellermann, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

Describir

Este documento identifica los problemas de los benchmarks de agentes para evaluar el rendimiento de los agentes de IA y propone la Lista de Verificación de Benchmarks de Agentes (ABC), una guía para abordar estos problemas. Muchos benchmarks de agentes existentes demuestran que pueden subestimar o sobreestimar el rendimiento del agente hasta en un 100 % debido a problemas con la configuración de tareas o el diseño de recompensas. Por ejemplo, SWE-bench Verified utiliza casos de prueba insuficientes, y TAU-bench considera las respuestas vacías como exitosas. ABC se desarrolló combinando la experiencia en la creación de benchmarks, la investigación de mejores prácticas y los problemas reportados previamente. Al aplicarlo a CVE-Bench, que cuenta con un diseño de evaluación complejo, ABC demostró una reducción del 33 % en la sobreestimación del rendimiento.

Takeaways, Limitations

Takeaways:
Presentamos pautas sistemáticas (ABC) para garantizar la confiabilidad de los puntos de referencia de los agentes de IA.
Revelamos problemas con el diseño y los métodos de evaluación de los puntos de referencia existentes y demostramos la gravedad de los errores de evaluación del desempeño que resultan de ellos.
La aplicación de ABC puede mejorar la confiabilidad de los puntos de referencia y aumentar la precisión de la evaluación del desempeño de los agentes de IA.
Limitations:
Se necesita una validación adicional para determinar si ABC es aplicable a todos los tipos de puntos de referencia de agentes.
El proceso de aplicación del ABC puede ser complejo y llevar mucho tiempo.
Tal vez se necesiten más investigaciones para determinar la integridad y objetividad del propio ABC.
👍