[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

QuestA: Ampliación de la capacidad de razonamiento en los LLM mediante el aumento de preguntas

Created by
  • Haebom

Autor

Jiazheng Li, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Hongzhou Lin, Yi Wu, Jingzhao Zhang

Describir

En este artículo, señalamos las limitaciones del aprendizaje por refuerzo (RL) tradicional para mejorar la capacidad de inferencia multinivel de los modelos de inferencia de lenguaje (LLM) a gran escala mediante aprendizaje por refuerzo (RL), y proponemos un método novedoso, Question Augmentation (QuestA), para resolver estas limitaciones. QuestA reduce la dificultad del problema añadiendo soluciones parciales durante el proceso de aprendizaje por refuerzo, lo que proporciona señales de entrenamiento más informativas. Al aplicar QuestA durante el aprendizaje por refuerzo en tareas de inferencia matemática, se mejoran los rendimientos de Pass@1 y Pass@k, especialmente en problemas donde el RL tradicional presenta dificultades. Al mejorar aún más la capacidad de inferencia de potentes modelos de código abierto como DeepScaleR y OpenMath Nemotron, logramos nuevos resultados de vanguardia (67,1 %, 59,5 % y 35,5 %, respectivamente) en los benchmarks AIME24, AIME25 y HMMT25. Además, proporcionamos una explicación teórica de por qué QuestA mejora la eficiencia de la muestra, sugiriendo un método práctico y generalizable para ampliar la capacidad de inferencia a través de RL.

Takeaways, Limitations

Takeaways:
Presentamos una estrategia eficaz de aumento de preguntas (QuestA) para mejorar el rendimiento de inferencia multinivel del LLM basado en aprendizaje de refuerzo.
Superar las limitaciones del RL existente y contribuir a mejorar el rendimiento, especialmente para problemas difíciles.
Consiga un nuevo rendimiento de última generación en los puntos de referencia AIME24, AIME25 y HMMT25.
Presentando la posibilidad de un aprendizaje eficiente a través de la mejora de la eficiencia de la muestra.
Proporcionar un método práctico y generalizable para ampliar la capacidad de inferencia de los LLM basados en RL.
Limitations:
Se requieren experimentos y análisis adicionales para determinar la generalización del método propuesto. (El texto menciona la generalización, pero no se especifican limitaciones).
Se necesita evaluar la aplicabilidad y el desempeño para otros tipos de problemas de inferencia.
Falta de análisis detallado del ajuste y optimización de parámetros en QuestA.
👍