Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TreeBoN: Mejora de la alineación en el tiempo de inferencia con búsqueda de árboles especulativa y muestreo del mejor de N

Created by
  • Haebom

Autor

Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Chenhao Zhu, Xinzhe Juan, Ling Yang, Huazheng Wang, Kaixuan Huang, Yue Wu, Mengdi Wang

Describir

Este artículo propone un método para mejorar el rendimiento de modelos lingüísticos a gran escala mediante la alineación en tiempo de inferencia. Mientras que el muestreo convencional Best-of-N (BoN) implica altos costos computacionales, el TreeBoN propuesto integra una estrategia de búsqueda predictiva de árboles para reducirlos, manteniendo al mismo tiempo una alta calidad de salida. TreeBoN utiliza recompensas a nivel de token derivadas de la Optimización Directa de Preferencias (DPO) para guiar la expansión del árbol y eliminar las rutas de baja calidad. Los resultados de la evaluación con los conjuntos de datos AlpacaFarm, HH-RLHF, UltraFeedback, GSM8K y TutorEval demuestran que TreeBoN supera al BoN convencional, alcanzando una tasa de éxito del 65 % en el conjunto de datos TutorEval.

Takeaways, Limitations

Takeaways:
Presentamos TreeBoN, un nuevo y eficiente marco para la ordenación en tiempo de inferencia.
Mantiene una alta calidad de salida al tiempo que reduce los costos computacionales en comparación con el BoN convencional.
Funciona bien en varios conjuntos de datos y logra una alta tasa de éxito del 65 % en TutorEval.
Guíe eficazmente el recorrido del árbol utilizando DPO.
Limitations:
Las mejoras de rendimiento de TreeBoN podrían limitarse a conjuntos de datos y modelos específicos. Se requieren experimentos con una gama más amplia de modelos y conjuntos de datos.
Dado que algunas partes dependen de DPO, el rendimiento de TreeBoN puede verse afectado por la calidad de DPO.
Debido a la complejidad de la estrategia de búsqueda de árboles, los costos computacionales aún pueden ser elevados en ciertas situaciones. Se requiere mayor investigación para determinar los parámetros óptimos de búsqueda de árboles.
👍