[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La aritmética logit genera capacidades de razonamiento a largo plazo sin entrenamiento

Created by
  • Haebom

Autor

Yunxiang Zhang, Muhammad Khalifa, Lechen Zhang, Xin Liu, Ayoung Lee, Xinliang Frederick Zhang, Farima Fatahi Bayat, Lu Wang

Describir

En este artículo, proponemos ThinkLogit, un método novedoso para mejorar la capacidad de inferencia a largo plazo de los modelos de inferencia a gran escala (LRM). ThinkLogit es un enfoque basado en el tiempo de decodificación que mejora la capacidad de inferencia a largo plazo de un modelo a gran escala (modelo objetivo) mediante el uso de un modelo pequeño (modelo guía) mediante operaciones logit. Además, proponemos ThinkLogit-DPO, que entrena el modelo guía mediante la optimización de preferencias utilizando pares de inferencia correctos/incorrectos. Los resultados experimentales muestran que cuando el modelo Qwen2.5-32B es guiado por R1-Distill-Qwen-1.5B (un modelo 21 veces más pequeño), ThinkLogit y ThinkLogit-DPO mejoran la respuesta a la primera prueba (pass@1) en un 26% y un 29% en cuatro conjuntos de datos matemáticos, respectivamente. Además, ThinkLogit transfiere las habilidades de inferencia a largo plazo obtenidas mediante aprendizaje por refuerzo para mejorar la respuesta a la primera prueba (pass@1) en un 13% en comparación con el modelo base Qwen2.5-32B. Esto presenta un método computacionalmente eficiente para inducir inferencias a largo plazo en modelos a gran escala sin aprendizaje adicional o con un aprendizaje mínimo.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar eficientemente la capacidad de inferencia a largo plazo de modelos a gran escala aprovechando modelos pequeños.
Un enfoque computacionalmente eficiente que requiere poco o ningún aprendizaje adicional.
Demostramos que las habilidades de inferencia a largo plazo adquiridas a través del aprendizaje de refuerzo pueden transferirse.
Limitations:
La eficacia del método propuesto podría limitarse a ciertos modelos y conjuntos de datos. Se requieren experimentos con modelos y conjuntos de datos más diversos.
El rendimiento del modelo guía puede afectar el rendimiento general del sistema. Se requiere mayor investigación sobre la selección y optimización del modelo guía.
Dado que se centra en conjuntos de datos matemáticos, su rendimiento de generalización a otros tipos de problemas de inferencia requiere más estudios.
👍