Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo presenta el marco Search-R1, que aprovecha el aprendizaje por refuerzo (AR) para permitir que un modelo de lenguaje a gran escala (LLM) genere consultas de búsqueda y utilice los resultados para la inferencia durante el proceso de inferencia mediante recuperación en tiempo real. Search-R1 optimiza la ruta de inferencia del LLM mediante interacciones de recuperación multironda y emplea una técnica de enmascaramiento de tokens de resultados de búsqueda y una función de recompensa simple basada en resultados para un aprendizaje estable del RL. Los resultados experimentales en siete conjuntos de datos de preguntas y respuestas demuestran que Search-R1 supera la técnica RAG existente en un 41% en el modelo Qwen2.5-7B y en un 20% en el modelo Qwen2.5-3B. Además, proporcionamos información experimental sobre los métodos de optimización del RL, la selección del LLM y la dinámica de la longitud de los resultados de búsqueda. El código y los puntos de control del modelo están disponibles públicamente.
Takeaways, Limitations
•
Takeaways:
◦
Se presenta una nueva metodología para mejorar la capacidad de búsqueda de LLM mediante el uso del aprendizaje de refuerzo.
◦
Demostramos mejoras robustas en el aprendizaje y el rendimiento del RL a través de interacciones de recuperación múltiple y enmascaramiento de tokens.
◦
La generalización se verifica a través de resultados experimentales en varios LLM y conjuntos de datos.
◦
Apoyo a la reproducibilidad y seguimiento de la investigación mediante código abierto y divulgación de modelos.
•
Limitations:
◦
Los resultados experimentales se limitan a un LLM y un conjunto de datos específicos. Se requieren experimentos adicionales con una gama más amplia de LLM y conjuntos de datos.
◦
Posible degradación del rendimiento debido a la simplicidad de la función de recompensa basada en resultados. Se requiere un diseño más sofisticado de la función de recompensa.
◦
Dependencia de las características del motor de búsqueda. Es necesario comparar aplicaciones y rendimiento entre distintos motores de búsqueda.