Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ingeniería de aviso previo para el ajuste fino del refuerzo

Created by
  • Haebom

Autor

Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul

Describir

Este artículo investiga la eficacia de la ingeniería de indicaciones previas (pPE) en el ajuste fino de refuerzo (RFT). Si bien la investigación previa sobre RFT se ha centrado principalmente en algoritmos, diseño de recompensas y gestión de datos, el diseño de pPE (las instrucciones que se anteponen a las consultas durante el entrenamiento [p. ej., guía de inferencia paso a paso]) ha sido poco estudiado. En este artículo, investigamos si diversos enfoques de pPE pueden inducir diferentes comportamientos en los modelos de lenguaje (LM) tras el RFT. Convertimos cinco estrategias utilizadas en la ingeniería de indicaciones en tiempo de inferencia (iPE) (inferencia, planificación, razonamiento basado en código, recuperación de conocimiento y explotación de ejemplos nulos) en pPE y las aplicamos al modelo Qwen2.5-7B. Evaluamos su rendimiento en pruebas de referencia como AIME2024, HumanEval+ y GPQA-Diamond. Los resultados experimentales muestran que todos los modelos entrenados con PPE superan a los modelos impulsados ​​por iPE, siendo el enfoque de PPE de ejemplo nulo el que logra las mayores mejoras de rendimiento, observándose las mayores mejoras en AIME2024 y GPQA-Diamond. Además, utilizando un marco de clasificación conductual, demostramos que diferentes estrategias de PPE inculcan diferentes estilos de comportamiento en los modelos.

Takeaways, Limitations

Takeaways:
Revelando que pPE es un componente importante de RFT.
Presentamos la posibilidad de mejorar el rendimiento del modelo aplicando varias estrategias iPE a pPE.
Demostrando la superioridad del enfoque pPE de ejemplo nulo.
Demostramos que pPE es eficaz para controlar el estilo de comportamiento del modelo.
Enfatizar la importancia del pPE en futuros estudios de RFT.
Limitations:
Dado que estos resultados corresponden a un modelo específico (Qwen2.5-7B) y a un punto de referencia, la generalización es limitada.
Se necesita más investigación sobre otros LM u otros algoritmos RFT.
Se necesitan más investigaciones sobre las interacciones y combinaciones óptimas entre las estrategias de EPP.
Falta de análisis de los costos computacionales y la eficiencia de los EPI.
👍