[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mélange d'experts en Raytracing

Created by
  • Haebom

Auteur

Andrea Perin, Giacomo Lagomarsini, Claudio Gallicchio, Giuseppe Nuti

Contour

Cet article présente Mixture of Raytraced Experts, une architecture de Mixture of Experts (MoE) empilée qui génère un graphe de calcul de largeur et de profondeur variables. Alors que les architectures MoE traditionnelles nécessitent une quantité de calcul fixe pour un échantillon donné, notre approche fournit des prédictions dont la précision augmente avec le nombre de cycles de calcul sur les séquences d'experts. De manière similaire à l'entraînement des réseaux de neurones récurrents, nous entraînons le modèle en échantillonnant de manière répétée un ensemble d'experts candidats et en dépliant les séquences. Notre méthode ne nécessite aucun mécanisme d'équilibrage de charge, et les premiers résultats expérimentaux montrent qu'elle réduit les périodes d'apprentissage de 10 à 40 % avec une précision similaire ou supérieure. Ces résultats suggèrent une nouvelle direction pour la recherche dans le domaine du MoE, menant potentiellement à des modèles plus rapides et plus expressifs. Le code est disponible à l' adresse https://github.com/nutig/RayTracing .

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle architecture MoE qui peut simultanément améliorer la précision et l'efficacité grâce à une charge de calcul variable.
Résout les problèmes d'équilibrage de charge du MoE existant.
Temps de formation réduit (réduction de 10% à 40%).
Présentation de nouvelles orientations de recherche dans le domaine du MoE.
Limitations:
Seuls les premiers résultats expérimentaux sont présentés, nécessitant des expériences et des vérifications supplémentaires.
Il est nécessaire de vérifier les performances de généralisation sur divers ensembles de données et tâches.
En tant qu'architecture spécialisée dans le lancer de rayons, des recherches supplémentaires sont nécessaires sur son applicabilité à d'autres domaines.
👍