Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Atom-Searcher: Mejora de la investigación profunda agéntica mediante recompensas de pensamiento atómico de grano fino

Created by
  • Haebom

Autor

Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng

Describir

Este artículo propone Atom-Searcher, un novedoso marco de trabajo para mejorar las capacidades de resolución de problemas complejos de los modelos de lenguaje a gran escala (LLM). Para superar las limitaciones de los enfoques existentes de generación de búsqueda aumentada (RAG), nos centramos en el aprendizaje profundo basado en agentes, donde los LLM realizan de forma autónoma la inferencia, la búsqueda y la síntesis de información. Para abordar los desafíos inherentes a los enfoques de aprendizaje por refuerzo (RL) basado en resultados, como los gradientes conflictivos y la escasez de recompensas, presentamos Atomic Thought, un novedoso enfoque que descompone el proceso de inferencia en unidades funcionales de granularidad fina. Este enfoque acelera la convergencia hacia rutas de inferencia eficientes mediante el uso de Modelos de Recompensa por Razonamiento (RRM) y Recompensas de Pensamiento Atómico (ATR), que proporcionan una guía detallada para el proceso de inferencia. Un programa de recompensas basado en el currículo prioriza los ATR a nivel de proceso y realiza una transición gradual hacia recompensas a nivel de resultado. A través de siete experimentos de referencia, demostramos que nuestro enfoque supera los métodos de última generación existentes, demostrando la escalabilidad de los cálculos del tiempo de prueba, proporcionando un criterio de supervisión para los RRM y demostrando patrones de razonamiento más interpretables y similares a los humanos.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo enfoque para mejorar las habilidades de resolución de problemas complejos de los estudiantes de LLM.
Solución del problema de inferencia de múltiples etapas y búsqueda estratégica de Limitations utilizando el método RAG existente
Superar las limitaciones del aprendizaje basado en resultados y mejorar la eficiencia del aprendizaje.
Garantizar la escalabilidad de los cálculos del tiempo de prueba
Implementar patrones de razonamiento más interpretables y similares a los humanos
Proporcionar estándares de supervisión eficaces para RRM a través del Pensamiento Atómico
Limitations:
Se necesita una verificación adicional del rendimiento de generalización del Atom-Searcher propuesto.
Necesidad de evaluar la aplicabilidad y el rendimiento para varios tipos de problemas.
Se necesita más investigación sobre el diseño de RRM y la definición de ATR.
La necesidad de grandes conjuntos de datos y recursos computacionales
👍