Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Orientación del razonamiento en LLM mediante la adaptación basada únicamente en sesgos

Created by
  • Haebom

Autor

Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov

Describir

Este artículo presenta un método que utiliza aprendizaje por refuerzo para entrenar un único vector de dirección $d$-dimensional por capa, manteniendo fijos los pesos base. Este método logra un rendimiento comparable al de un modelo de inferencia completamente ajustado por RL en una tarea de razonamiento matemático. La parametrización adicional es de tan solo alrededor del 0,0016 % del modelo de 8 mil millones de parámetros, y el rendimiento es reproducible en una variedad de modelos base y puntos de referencia de razonamiento matemático. Estos resultados reducen el límite superior del presupuesto de parámetros requerido para la inferencia de cadenas de pensamiento de alta dimensión, lo que sugiere que millones de pesos adaptadores son innecesarios. El espacio mínimo entrenable reduce la comunicación entre la memoria del optimizador y la GPU, disminuyendo así el coste total del ajuste fino. Además, el análisis logit-lens demuestra que los vectores aprendidos amplifican las orientaciones consistentes de los tokens, lo que proporciona una visión clara del cómputo interno del modelo.

Takeaways, Limitations

Takeaways: Se presenta un método eficiente de aprendizaje de parámetros para la inferencia de cadenas de alta dimensión. Comparado con los métodos existentes, logra un rendimiento equivalente con un número mínimo de parámetros adicionales. Esto reduce los costos de ajuste y mejora la comprensión del funcionamiento interno del modelo.
Limitations: Se requiere mayor investigación para determinar la generalización del método propuesto. Se requieren evaluaciones de rendimiento en diversos tipos de tareas de razonamiento. Los resultados podrían limitarse a tipos específicos de razonamiento matemático.
👍