[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cambio de pensamiento: Computación adaptativa del tiempo de prueba

Created by
  • Haebom

Autor

Mrinal Mathur, Mike Doan, Barak Pearlmutter, Sergey Plis

Describir

En este artículo, demostramos que un Transformador evaluado a una profundidad fija tiene una capacidad expresiva limitada a la clase de circuito TC0 y proponemos un enfoque novedoso para mejorar la capacidad expresiva del Transformador del codificador, en lugar de un enfoque autorregresivo, para superar esta limitación. Mientras que los enfoques autorregresivos existentes (predicción del siguiente token, razonamiento en cadena de pensamiento) se basan en un bucle de retroalimentación que decodifica y recodifica estados intermedios en tokens, el Transformador SELF propuesto en este artículo refina iterativamente los pesos de atención dentro de la capa del codificador hasta un punto fijo, ajustando así el cálculo en tiempo de prueba según la dificultad de entrada. Esto se logra actualizando iterativamente la matriz de alineación internamente, en lugar de generar una matriz de alineación que mezcle secuencias de entrada en una sola pasada. Como resultado, logramos una mejora de la precisión de hasta un 20 % en las pruebas de referencia de estilo codificador sin aumentar el número de parámetros, y demostramos que la alineación adaptativa a la entrada proporciona beneficios significativos en tiempo de prueba con un pequeño coste computacional adicional. De esta forma, el SELF-Transformer recupera significativamente el poder expresivo del razonamiento recurrente manteniendo la simplicidad de una arquitectura de codificador puro.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para superar las limitaciones expresivas de los transformadores de profundidad fija.
Mejorar el poder expresivo de los transformadores codificadores sin enfoques autorrepetitivos.
Mejore la precisión y aumente la eficiencia computacional mediante la clasificación adaptativa de entrada en el momento de la prueba.
Conseguir mejoras de rendimiento sin aumentar el número de parámetros.
Obtenga los beneficios de la inferencia recurrente manteniendo la simplicidad de una arquitectura de codificador puro.
Limitations:
Se necesitan experimentos adicionales para determinar si la efectividad de SELF-Transformer es la misma en todos los puntos de referencia del codificador.
Se necesitan un estudio del método de optimización y análisis cuantitativo para el aumento en la cantidad de cálculo del tiempo de prueba debido a la dificultad de entrada.
Se necesita más investigación sobre la generalización a otros tipos de arquitecturas o tareas.
👍