Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimalidad probabilística para el escalamiento en tiempo de inferencia

Created by
  • Haebom

Autor

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei

Describir

Este artículo presenta un nuevo marco probabilístico para el escalamiento en tiempo de inferencia (ITS) con el fin de mejorar el rendimiento de inferencia de modelos lingüísticos a gran escala (LLM). Supera las limitaciones de los métodos convencionales de muestreo paralelo basados en heurísticas y establece una base teórica para el escalamiento óptimo en tiempo de inferencia, suponiendo que las muestras paralelas son independientes y se distribuyen de forma idéntica. Al estimar la distribución de probabilidad de una estrategia de selección al mejor de N, derivamos un límite inferior teórico para el número mínimo de muestras necesario para alcanzar el nivel de rendimiento objetivo. Con base en este límite inferior, desarrollamos el algoritmo OptScale, que determina dinámicamente el recuento óptimo de muestras. OptScale utiliza un predictor basado en modelos lingüísticos para estimar parámetros probabilísticos a priori y determina el número mínimo de muestras que satisface los umbrales de rendimiento y los niveles de confianza predefinidos. Experimentos exhaustivos con referentes de inferencia matemática como MATH-500, GSM8K, AIME y AMC demuestran que OptScale reduce significativamente la sobrecarga de muestreo, manteniendo al mismo tiempo un rendimiento de inferencia de vanguardia. Este artículo proporciona fundamentos teóricos y soluciones prácticas, contribuyendo significativamente a la implementación eficiente de LLM para inferencia compleja. El código fuente está disponible públicamente.

Takeaways, Limitations

Takeaways:
Proporcionamos la primera base teórica para la extensión del tiempo de inferencia de LLM.
Presentamos el algoritmo OptScale, que reduce eficientemente los costos computacionales al calcular el número mínimo de muestras necesarias para lograr el rendimiento objetivo.
Demuestra resultados que mantienen o superan el desempeño de SOTA en los puntos de referencia de razonamiento matemático.
Se han mejorado la reproducibilidad y la usabilidad mediante código fuente abierto.
Limitations:
Partiendo del supuesto de que las muestras paralelas son independientes y están distribuidas de forma idéntica, puede producirse una degradación del rendimiento si la distribución de los datos reales no cumple este supuesto.
El rendimiento del algoritmo OptScale puede verse afectado por la precisión del predictor basado en el modelo de lenguaje.
Actualmente, sólo se presentan resultados experimentales para parámetros de razonamiento matemático, y la generalización a otros tipos de tareas requiere más investigación.
👍