[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Search-R1: Formación de LLM para razonar y aprovechar los motores de búsqueda mediante aprendizaje de refuerzo

Created by
  • Haebom

Autor

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

Describir

Este artículo propone un método para adquirir conocimiento externo e información actualizada con el fin de mejorar la eficiencia de la inferencia y la generación de texto de modelos de lenguaje a gran escala (LLM). Para superar las limitaciones del motor de búsqueda existente, presentamos el marco Search-R1 basado en aprendizaje por refuerzo (RL). En Search-R1, el LLM genera de forma autónoma múltiples consultas de búsqueda durante el proceso de inferencia paso a paso y optimiza dicho proceso utilizando los resultados de la búsqueda. Realiza un aprendizaje de RL estable mediante la técnica de enmascaramiento de tokens y una función de recompensa simple basada en resultados. Los resultados experimentales en siete conjuntos de datos de preguntas y respuestas muestran que Search-R1 mejora el rendimiento en un 41 % en el modelo Qwen2.5-7B y en un 20 % en el modelo Qwen2.5-3B, en comparación con la técnica RAG existente. Además, presentamos los resultados del análisis experimental sobre el método de optimización de RL, la selección de LLM y la dinámica de la longitud de los resultados de búsqueda. El código y los puntos de control del modelo están disponibles públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Demostramos que el aprendizaje de refuerzo puede permitir que LLM interactúe de manera eficiente con los motores de búsqueda y mejore el rendimiento de la inferencia.
Se presenta un método de aprendizaje RL robusto que utiliza enmascaramiento de tokens y una función de recompensa simple.
Demostramos la superioridad de Search-R1 a través de resultados experimentales en varios LLM y conjuntos de datos.
Proporciona información sobre la dinámica de la longitud de los resultados de búsqueda, etc.
Garantizar la reproducibilidad y sugerir posibilidades para futuras investigaciones mediante la divulgación del código y los puntos de control del modelo.
Limitations:
Sólo se presentan resultados experimentales para LLM y conjuntos de datos específicos, lo que requiere más investigación sobre generalización.
Falta de evaluación del desempeño en preguntas complejas o múltiples dominios de conocimiento.
Tal vez se necesiten más investigaciones sobre el diseño de la función de recompensa.
Hay un aspecto que depende del rendimiento del motor de búsqueda.
👍