[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Couture de modèles de fondation en modalité (presque) libre

Created by
  • Haebom

Auteur

Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto

Contour

Dans cet article, nous proposons l'alignement de modèles d'hyperréseaux (Hyma) pour résoudre le problème de coût de calcul qui se pose lors de la construction d'un modèle multimodal en combinant plusieurs modèles monomodaux pré-entraînés. Les méthodes existantes de construction de modèles multimodaux nécessitent un coût de calcul important pour entraîner les modules de connexion reliant plusieurs modèles monomodaux. Hyma résout ce problème en utilisant des hyperréseaux pour sélectionner la combinaison optimale de modèles monomodaux et entraîner simultanément les modules de connexion. Il trouve efficacement la combinaison optimale de modèles en entraînant conjointement les modules de connexion pour N x M combinaisons de modèles monomodaux grâce à la fonction de prédiction des paramètres des hyperréseaux.

Takeaways, Limitations_

Takeaways:
Les hyperréseaux peuvent réduire considérablement le coût de calcul de la construction de modèles multimodaux (jusqu'à 10 fois moins).
Il peut trouver efficacement la combinaison optimale de modèles monomodes qui présente des performances équivalentes par rapport à la méthode de recherche de grille.
Performances vérifiées dans divers benchmarks multimodes.
Limitations:
ÉTant donné que les performances de l’hyperréseau affectent directement les performances du modèle multimodal final, des recherches supplémentaires sur la conception et la formation de l’hyperréseau peuvent être nécessaires.
Une validation supplémentaire est nécessaire pour déterminer si les résultats expérimentaux présentés peuvent être généralisés à tous les types de modèles et d’ensembles de données multimodaux.
Des recherches supplémentaires pourraient être nécessaires sur les performances et l’évolutivité des grands ensembles de données basés sur le Web.
👍