Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ProactiveEval: Un marco de evaluación unificado para agentes de diálogo proactivo

Created by
  • Haebom

Autor

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

Describir

Este artículo propone ProactiveEval, un marco unificado para evaluar la capacidad conversacional léxica de los modelos lingüísticos a gran escala (LLM). Para abordar las limitaciones de estudios previos, que se han centrado en dominios específicos o escenarios orientados a tareas y, por lo tanto, han limitado la exploración exhaustiva de la capacidad conversacional léxica de los modelos, descomponemos la conversación léxica en dos aspectos: planificación de objetivos y guía de conversación. Establecemos métricas de evaluación en múltiples dominios. Además, diseñamos este marco para generar automáticamente datos de evaluación diversos y complejos. Desarrollamos 328 entornos de evaluación en seis dominios diferentes y experimentamos con 22 LLM, demostrando que DeepSeek-R1 y Claude-3.7-Sonnet tienen un buen rendimiento en las tareas de planificación de objetivos y guía de conversación, respectivamente. Finalmente, investigamos el impacto de la capacidad de razonamiento en el comportamiento léxico y analizamos sus implicaciones para el desarrollo futuro de modelos.

Takeaways, Limitations

Takeaways:
Presentamos un marco integrado y sistemático (ProactiveEval) para evaluar las habilidades de comunicación previas a la prueba en LLM.
Experimentos exhaustivos en varios dominios y LLM han revelado modelos (DeepSeek-R1, Claude-3.7-Sonnet) que demuestran un rendimiento excelente.
Aclarar la relación entre la capacidad de razonamiento y la capacidad conversacional preexistente y sugerir futuras direcciones de desarrollo de modelos.
Limitations:
Se necesita más investigación para determinar la generalización del marco ProactiveEval.
Es necesaria una revisión más profunda de la diversidad y el equilibrio de los datos de evaluación.
Es necesario tener cuidado al interpretar resultados que están sesgados hacia dominios específicos.
Es necesario seguir debatiendo la definición y medición de las habilidades conversacionales preexistentes.
👍