Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escala de tiempo de entrada

Created by
  • Haebom

Autor

Rapheal Huang (Yuming), Weilong Guo

Describir

Este artículo presenta el Escalado de Tiempo de Entrada (ITS), un novedoso paradigma de escalado que complementa los enfoques existentes de escalado de datos, entrenamiento e inferencia para modelos lingüísticos a gran escala (LLM). Proponemos un método que combina el metaconocimiento de los LLM durante el entrenamiento y las pruebas para mejorar las entradas mediante diversas estrategias, y descubrimos un fenómeno conocido como codiseño de entrenamiento y pruebas. Aplicar estrategias de consulta tanto al entrenamiento como a las pruebas mejora significativamente el rendimiento, mientras que aplicarlas solo a un lado lo degrada significativamente. Curiosamente, los conjuntos de datos con baja calidad de datos pueden alcanzar un alto rendimiento, mientras que el uso de ejemplos seleccionados aleatoriamente o la adición de información irrelevante a veces produce los mejores resultados. Esto refuta el sesgo inductivo común de "si entra basura, sale basura". De hecho, los conjuntos de datos compuestos por datos de alta calidad pueden limitar el rendimiento. Los modelos entrenados con más datos de calidad similar (15k frente a 1k) a veces tienen un rendimiento inferior, lo que sugiere la necesidad de ser cautelosos al escalar conjuntos de datos. Los resultados de este estudio concuerdan con el fenómeno "Menos es Más", lo que demuestra que se pueden inducir capacidades de inferencia de alta dimensión con un número reducido de ejemplos. En experimentos con modelos basados ​​en Qwen2.5-32B-Instruct, logramos un rendimiento de vanguardia en AIME24 (76,7%) y AIME25 (76,7%) con una aprobación a 1, y obtuvimos AIME24 (76,7%) y AIME25 (80%) mediante una votación mayoritaria de tres modelos. Con base en DeepSeek-R1-Distill-Qwen-32B, obtuvimos AIME24 (86,7%) y AIME25 (76,7%). Planeamos publicar en código abierto el conjunto de datos, la secuencia de datos, los resultados de la evaluación y los puntos de control para garantizar la reproducibilidad y la investigación futura.

Takeaways, Limitations

Takeaways:
Se propone un nuevo paradigma de escalamiento LLM llamado Escalamiento de Tiempo de Entrada (ITS).
Enfatizar la importancia del diseño conjunto de entrenamiento y prueba
Confirmar la viabilidad de lograr un alto rendimiento incluso con conjuntos de datos de baja calidad y refutar la creencia popular de que "si entra basura, sale basura".
Confirmando la posibilidad de inducir capacidades de inferencia de alta dimensión incluso con pequeñas cantidades de datos (confirmando el fenómeno "Menos es más")
Se logró el rendimiento SOTA en AIME24 y AIME25
Limitations:
La apertura del código fuente del conjunto de datos, la canalización de datos, los resultados de la evaluación y los puntos de control aún está en curso.
Se necesita más investigación sobre los efectos de la simple expansión del tamaño del conjunto de datos.
Es necesario verificar la generalización en varias arquitecturas y conjuntos de datos LLM.
👍