Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Search-R1: Formación de LLM para razonar y aprovechar los motores de búsqueda mediante aprendizaje de refuerzo

Created by
  • Haebom

Autor

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

Describir

Este artículo presenta el marco Search-R1, que aprovecha el aprendizaje por refuerzo (AR) para permitir que un modelo de lenguaje a gran escala (LLM) genere consultas de búsqueda y utilice los resultados para la inferencia durante el proceso de inferencia mediante recuperación en tiempo real. Search-R1 optimiza la ruta de inferencia del LLM mediante interacciones de recuperación multironda y emplea una técnica de enmascaramiento de tokens de resultados de búsqueda y una función de recompensa simple basada en resultados para un aprendizaje estable del RL. Los resultados experimentales en siete conjuntos de datos de preguntas y respuestas demuestran que Search-R1 supera la técnica RAG existente en un 41% en el modelo Qwen2.5-7B y en un 20% en el modelo Qwen2.5-3B. Además, proporcionamos información experimental sobre los métodos de optimización del RL, la selección del LLM y la dinámica de la longitud de los resultados de búsqueda. El código y los puntos de control del modelo están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Se presenta una nueva metodología para mejorar la capacidad de búsqueda de LLM mediante el uso del aprendizaje de refuerzo.
Demostramos mejoras robustas en el aprendizaje y el rendimiento del RL a través de interacciones de recuperación múltiple y enmascaramiento de tokens.
La generalización se verifica a través de resultados experimentales en varios LLM y conjuntos de datos.
Apoyo a la reproducibilidad y seguimiento de la investigación mediante código abierto y divulgación de modelos.
Limitations:
Los resultados experimentales se limitan a un LLM y un conjunto de datos específicos. Se requieren experimentos adicionales con una gama más amplia de LLM y conjuntos de datos.
Posible degradación del rendimiento debido a la simplicidad de la función de recompensa basada en resultados. Se requiere un diseño más sofisticado de la función de recompensa.
Dependencia de las características del motor de búsqueda. Es necesario comparar aplicaciones y rendimiento entre distintos motores de búsqueda.
👍