Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimalidad probabilística para el escalamiento en tiempo de inferencia

Created by
  • Haebom

Autor

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei, Qing Li

Describir

Este artículo analiza una técnica de escalamiento en tiempo de inferencia para mejorar el rendimiento de los modelos de lenguaje a gran escala (LLM). Señalamos que los métodos existentes de escalamiento en tiempo de inferencia suelen basarse en estrategias heurísticas y, por lo tanto, carecen de fundamento teórico. Proponemos un marco probabilístico que formaliza el escalamiento óptimo en tiempo de inferencia bajo el supuesto de que las muestras paralelas son independientes y se distribuyen de forma idéntica. En este marco, derivamos un límite inferior teórico para el número de muestras necesario para alcanzar un nivel de rendimiento objetivo y desarrollamos OptScale, un algoritmo práctico que determina dinámicamente el número óptimo de muestras con base en dicho límite inferior teórico. OptScale estima parámetros probabilísticos a priori utilizando un predictor basado en un modelo de lenguaje y determina el número mínimo de muestras necesario para satisfacer un umbral de rendimiento y un nivel de confianza predefinidos. Mediante experimentos exhaustivos con benchmarks de inferencia matemática (incluyendo MATH-500, GSM8K, AIME y AMC), demostramos que OptScale logra un rendimiento comparable o superior al de los modelos de inferencia más modernos, a la vez que reduce significativamente la sobrecarga de muestreo. En conclusión, este artículo proporciona una base teórica y una solución práctica que cubre una brecha crítica en la implementación eficiente de LLM para inferencia compleja.

Takeaways, Limitations

Takeaways:
Proporciona la primera base teórica para las extensiones de la inferencia de LLM.
Presentamos un algoritmo práctico (OptScale) que mantiene un rendimiento de última generación al tiempo que reduce la sobrecarga de muestreo.
Verificamos experimentalmente la efectividad de OptScale en puntos de referencia de inferencia matemática.
Presenta nuevas posibilidades para una distribución eficiente de LLM.
Limitations:
Se basa en gran medida en el supuesto de que las muestras paralelas son independientes y están distribuidas de forma idéntica, un supuesto que puede no cumplirse siempre en la práctica.
El rendimiento de OptScale depende de la precisión del predictor basado en el modelo de lenguaje, y cualquier degradación en el rendimiento del predictor puede afectar el rendimiento de todo el sistema.
Se necesita más investigación sobre la generalización a diferentes tipos de tareas de razonamiento.
Se necesita una validación adicional para determinar si los resultados se pueden generalizar a modelos lingüísticos o puntos de referencia específicos.
👍