Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FinAgentBench: Un conjunto de datos de referencia para la recuperación de agentes en la respuesta a preguntas financieras

Created by
  • Haebom

Autor

Chanyeol Choi, Jihoon Kwon, Alejandro López-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

Describir

Este artículo presenta FinAgentBench, un punto de referencia a gran escala para evaluar la recuperación de información mediante inferencia multietapa en el ámbito financiero. Los métodos de recuperación de información existentes suelen presentar baja precisión, ya que requieren inferencias detalladas sobre la estructura de los documentos y el conocimiento específico del dominio, además de la similitud semántica. FinAgentBench consta de 3429 ejemplos de empresas que cotizan en el S&P-100, anotados por expertos, y evalúa la capacidad de un agente LLM para (1) identificar los tipos de documentos más relevantes entre los candidatos y (2) localizar con precisión frases clave dentro de los documentos seleccionados. Este artículo separa explícitamente las dos etapas de inferencia para abordar las restricciones contextuales, evalúa modelos de vanguardia y demuestra que el ajuste preciso basado en objetivos puede mejorar significativamente el rendimiento de la recuperación del agente. FinAgentBench proporciona una base para estudiar el comportamiento de LLM basado en la recuperación en tareas complejas y específicas del dominio financiero. Una vez aceptado, publicaremos el conjunto de datos y planeamos expandirlo a todo el S&P 500 y más allá.

Takeaways, Limitations

Takeaways:
Presentamos FinAgentBench, el primer punto de referencia a gran escala para evaluar la recuperación de información a través del razonamiento multinivel en finanzas.
Proporcionar un marco sistemático para evaluar las capacidades de identificación de tipos de documentos y extracción de frases clave de los agentes LLM.
Sugerimos la posibilidad de mejorar el rendimiento de recuperación de información basada en LLM a través de un ajuste orientado a objetivos.
Establecer una base de investigación aplicable a tareas complejas específicas de dominios más allá de las finanzas.
Limitations:
Actualmente sólo incluye datos de las compañías del S&P-100; es necesario ampliarlo al S&P 500 y más allá.
Está previsto que el conjunto de datos se haga público después de que se acepte el artículo, pero actualmente no es accesible.
El tipo y número de modelos evaluados pueden ser limitados.
👍