Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FinAgentBench: Un conjunto de datos de referencia para la recuperación de agentes en la respuesta a preguntas financieras

Created by
  • Haebom

Autor

Chanyeol Choi, Jihoon Kwon, Alejandro López-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

Describir

Este artículo presenta FinAgentBench, un punto de referencia a gran escala para evaluar la recuperación de información mediante inferencia multietapa en el ámbito financiero. Los métodos de recuperación de información existentes requieren inferencias detalladas sobre la estructura de los documentos y el conocimiento específico del dominio, además de la similitud semántica, pero a menudo presentan una baja precisión. FinAgentBench consta de 3429 ejemplos de empresas del índice S&P-100, anotados por expertos, y evalúa la capacidad de un agente LLM para (1) identificar los tipos de documentos más relevantes entre los candidatos y (2) localizar con precisión frases clave dentro de los documentos seleccionados. Al separar claramente las dos etapas de inferencia, abordamos las limitaciones contextuales y sentamos las bases para comprender cuantitativamente el comportamiento del LLM basado en la recuperación en el ámbito financiero. Evaluamos modelos de vanguardia y demostramos que el ajuste fino dirigido a objetivos puede mejorar significativamente el rendimiento de la recuperación del agente.

Takeaways, Limitations

Takeaways:
Presentamos FinAgentBench, el primer punto de referencia a gran escala para la recuperación de información basada en inferencia de múltiples etapas en el sector financiero.
Evaluar la capacidad del agente LLM para identificar tipos de documentos y extraer frases clave.
Una separación en dos etapas de los pasos de inferencia para abordar problemas limitados por el contexto.
Sugerir la posibilidad de mejorar el rendimiento a través de un ajuste orientado a objetivos.
Proporcionar una base para la investigación sobre el comportamiento LLM centrado en la búsqueda en tareas complejas específicas del dominio.
Limitations:
FinAgentBench está limitado a empresas que cotizan en el índice S&P-100, por lo que se requiere más investigación sobre su generalización.
La evaluación puede limitarse a un tipo específico de agente LLM y es necesario examinar la generalización a otros tipos de agentes o enfoques.
La confiabilidad de un punto de referencia puede verse afectada por el tamaño y la calidad de los datos de anotación de los expertos.
👍