Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TreeGPT: Arquitectura de codificador-decodificador TreeFFN puro para razonamiento estructurado sin mecanismos de atención

Created by
  • Haebom

Autor

Zixi Li

Describir

TreeGPT es una arquitectura de red neuronal sin atención que explora el potencial de las tareas de inferencia estructurada mediante un diseño de codificador-decodificador TreeFFN puro. A diferencia de los enfoques de transformador convencionales que se basan en mecanismos de atención, TreeGPT busca lograr un rendimiento de inferencia manteniendo la eficiencia computacional mediante el uso de componentes TreeFFN bidireccionales que procesan secuencias en paralelo mediante conexiones vecinas. Tanto el codificador, que procesa dependencias de izquierda a derecha, como el decodificador, que procesa patrones de derecha a izquierda, se centran en el mecanismo de codificador-decodificador TreeFFN con conexiones vecinas simples. Utilizando 3,16 millones de parámetros, logramos una precisión de validación del 99 % en el conjunto de datos del Premio ARC 2025. El modelo convergió en 1500 pasos de entrenamiento y alcanzó una precisión del 100 % a nivel de token en muestras de evaluación seleccionadas.

Takeaways, Limitations

Takeaways: Esto sugiere que una arquitectura TreeFFN especializada podría ser más ventajosa que los enfoques basados ​​en la atención para ciertas tareas de inferencia estructural. Logra una alta precisión (99 % de precisión de validación, 100 % de precisión a nivel de token) y una rápida convergencia (1500 pasos de entrenamiento).
Limitations: Se requiere mayor investigación en diversas tareas y conjuntos de datos para confirmar la amplia aplicabilidad de los diseños sin atención. Los resultados actuales se limitan a un conjunto de datos específico y se requiere mayor validación de su generalización.
👍