Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Buscar y refinar durante el pensamiento: Recuperación autónoma-Razonamiento aumentado de LLM

작성자
  • Haebom

Autor

Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

Describir

Este artículo propone AutoRefine, un novedoso marco basado en aprendizaje por refuerzo para mejorar el rendimiento de la inferencia de modelos lingüísticos a gran escala (LLM). Para abordar el problema de los métodos de inferencia aumentados por búsqueda existentes que recuperan información irrelevante o con ruido, AutoRefine introduce un paradigma de "búsqueda y refinamiento durante el pensamiento", que realiza procesos iterativos de búsqueda y refinamiento. Esto permite al modelo filtrar, extraer y organizar la evidencia de forma iterativa antes de generar una respuesta. Además, optimiza las políticas relativas a grupos aprovechando las recompensas específicas de la búsqueda y la precisión de la respuesta. Los resultados experimentales en pruebas de referencia de preguntas y respuestas de un solo salto y de múltiples saltos demuestran que AutoRefine supera significativamente a los métodos existentes, especialmente en escenarios complejos de inferencia de múltiples saltos. Un análisis detallado demuestra que AutoRefine realiza búsquedas frecuentes y de alta calidad, y sintetiza la evidencia eficazmente.

Takeaways, Limitations

Takeaways:
Presentamos un marco eficaz basado en el aprendizaje de refuerzo para mejorar la capacidad de inferencia del LLM.
Gestión eficiente del proceso de búsqueda y refinamiento a través del paradigma “buscar y refinar mientras se piensa”.
Mejoras de rendimiento a través de una combinación de recompensas específicas de búsqueda y recompensas por precisión de respuestas.
Demuestra un rendimiento superior en comparación con los métodos existentes en problemas de inferencia de múltiples saltos.
Limitations:
Es necesario un análisis más profundo de los factores que contribuyen a la mejora del rendimiento de AutoRefine.
Dado que estos son resultados de evaluación de desempeño para un conjunto de datos de referencia específico, se requiere una verificación adicional de generalización.
Se necesita más investigación sobre la eficiencia y la escalabilidad en entornos de aplicaciones del mundo real.
👍