Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TreeGPT : une nouvelle architecture hybride pour le traitement d'arbres de syntaxe abstraite avec agrégation parent-enfant globale

Created by
  • Haebom

Auteur

Zixi Li

Contour

TreeGPT est une nouvelle architecture de réseau neuronal combinant un mécanisme d'attention basé sur un transformateur et une agrégation parent-enfant globale pour traiter les arbres de syntaxe abstraite (AST). Contrairement aux approches existantes qui reposent uniquement sur le traitement séquentiel ou les réseaux de neurones graphes, TreeGPT utilise une conception hybride qui exploite l'auto-attention pour capturer les dépendances locales et un réseau d'anticipation d'arbre spécialisé (TreeFFN) pour modéliser les structures arborescentes hiérarchiques par transmission de messages répétitifs. L'innovation principale réside dans le mécanisme d'agrégation parent-enfant globale, qui permet à chaque nœud d'agréger progressivement les informations de l'ensemble de la structure arborescente sur T itérations. Les améliorations optionnelles incluent l'agrégation par portes avec pondérations d'arêtes apprenables, la liaison résiduelle pour la stabilité du gradient et la propagation bidirectionnelle pour capturer les dépendances ascendantes et descendantes. Évalué sur le jeu de données ARC Prize 2025, il a atteint une précision de 96 % avec seulement 1,5 million de paramètres, surpassant ainsi largement les autres modèles. La projection d'arêtes est le composant le plus important, et la combinaison de projection d'arêtes et de portes permet d'obtenir des performances optimales.

Takeaways, Limitations_

Takeaways:
Une nouvelle architecture, TreeGPT, est présentée qui combine l'attention basée sur le transformateur et l'agrégation globale parent-enfant.
Nous proposons une méthodologie efficace pour le traitement AST, atteignant une précision bien supérieure (96%) aux méthodes existantes.
Démontre son efficacité en obtenant des performances élevées avec des paramètres limités (1,5 M).
Révèle l’importance de la projection des bords et du déclenchement.
Limitations:
L'évaluation n'a été effectuée que sur l'ensemble de données du prix ARC 2025, la vérification des performances de généralisation est donc insuffisante.
En raison de la complexité de l’architecture, elle peut être difficile à comprendre et à mettre en œuvre.
Une évaluation des performances pour d’autres types de tâches de synthèse de programmes est nécessaire.
👍