Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Predicción cautelosa del próximo token

Created by
  • Haebom

Autor

Yizhou Wang, Lingzhi Zhang, Yue Bai, Mang Tik Chiu, Zhengmian Hu, Mingyuan Zhang, Qihua Dong, Yu Yin, Sohrab Amirghodsi, Yun Fu

Describir

Este artículo aborda el paradigma dominante de predicción del siguiente token en modelos autorregresivos de modelos de lenguaje a gran escala (LLM). Los LLM existentes utilizan el escalado de temperatura y el muestreo de núcleo como métodos básicos de muestreo para diversidad y consistencia, pero presentan un bajo rendimiento cuando el modelo es incierto. Para abordar esto, proponemos una nueva estrategia de decodificación sin entrenamiento, Cautious Next Token Prediction (CNTP). CNTP realiza múltiples ensayos independientes cuando la entropía de predicción del modelo es alta y se detiene cuando encuentra un signo de puntuación. Luego, selecciona el ensayo con la puntuación de perplejidad más baja como la ruta más probable y confiable. El número de ensayos es inversamente proporcional a la confianza de la predicción, y se realizan más ensayos cuando la confianza del modelo es baja. Amplios experimentos con LLM y MLLM muestran que CNTP supera a las estrategias de decodificación existentes y mejora aún más el rendimiento al incorporar autoconsistencia.

Takeaways, Limitations

Takeaways:
Presentamos una nueva estrategia de decodificación, CNTP, que supera las limitaciones de las estrategias de decodificación convencionales basadas en muestreo de núcleos y escala de temperatura.
Supera los métodos existentes en LLM y MLLM.
La integración con la autoconsistencia presenta el potencial para futuras mejoras en el rendimiento.
Es probable que se convierta en la estrategia básica para la decodificación de LLM.
Limitations:
El coste computacional del CNTP puede ser mayor que el de los métodos existentes (mayor coste computacional debido al mayor número de intentos)
Puede que falte una orientación clara para determinar el número óptimo de intentos.
Se necesita más investigación sobre el rendimiento de generalización para diferentes arquitecturas LLM y MLLM.
👍