Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escala de tiempo de entrada

Created by
  • Haebom

Autor

Rapheal Huang (Yuming), Weilong Guo

Describir

Este artículo presenta el Escalado en Tiempo de Entrada, un novedoso paradigma de escalado que complementa los métodos existentes de escalado de modelos de lenguaje a gran escala (LLM), como el escalado de datos y entrenamiento, y el escalado en tiempo de inferencia. Este método aprovecha el metaconocimiento para mejorar las entradas con diversas estrategias y descubre un fenómeno denominado "codiseño de entrenamiento y prueba", en el que las estrategias se aplican tanto durante el entrenamiento como durante la prueba. Curiosamente, observamos que los conjuntos de datos de baja calidad a veces ofrecen un mejor rendimiento y que el máximo rendimiento se puede alcanzar con tan solo 1000 ejemplos seleccionados aleatoriamente. Este hallazgo contradice la suposición común de que "si entra basura, sale basura". El entrenamiento con más datos de alta calidad no siempre mejora el rendimiento y es coherente con el fenómeno de "Menos es más", según el cual se pueden lograr capacidades de inferencia de alta dimensión con tan solo 1000 ejemplos. Los resultados experimentales con el modelo Qwen2.5-32B-Instruct alcanzaron un rendimiento excepcional (76,7 %) en AIME24 y AIME25, y la combinación de los tres modelos mediante votación mayoritaria logró un rendimiento del 80 % en AIME25. Con el modelo DeepSeek-R1-Distill-Qwen-32B, logramos un rendimiento del 86,7 % en AIME24 y del 76,7 % en AIME25. Planeamos publicar el conjunto de datos, la secuencia de datos, los resultados de la evaluación y los puntos de control en código abierto.

Takeaways, Limitations

Takeaways:
Un nuevo paradigma de escalamiento del tiempo de entrada que complementa el escalamiento de datos y de aprendizaje existente, así como el escalamiento del tiempo de inferencia.
Descubriendo la importancia del codiseño de entrenamiento y prueba
Hemos confirmado que los conjuntos de datos de baja calidad pueden funcionar mejor que los conjuntos de datos de alta calidad (refutando el argumento "basura que entra, basura que sale").
Coherencia con el fenómeno Menos es Más (inferencia de alta dimensión posible incluso con pequeñas cantidades de datos)
Lograr el rendimiento SOTA en AIME24 y AIME25
Publicación de código abierto de conjuntos de datos, código, etc.
Limitations:
Hasta la fecha, solo se han presentado resultados experimentales para modelos específicos (Qwen2.5-32B-Instruct, DeepSeek-R1-Distill-Qwen-32B), lo que requiere más investigación sobre generalización.
Se necesita más validación para determinar si los efectos de la extensión del tiempo de entrada se pueden aplicar a todos los LLM.
Es necesario un análisis más profundo de los mecanismos específicos del diseño conjunto aprendizaje-prueba.
El lanzamiento de código abierto aún no está completo.
👍