Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AnyGPT : LLM multimodal unifié avec modélisation de séquences discrètes

Created by
  • Haebom

Auteur

Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

Contour

AnyGPT est un modèle de langage multimodal « any-to-any » qui utilise des représentations discrètes pour intégrer diverses modalités, notamment la parole, le texte, les images et la musique. Son apprentissage est fiable sans modification de l'architecture ni de la méthode d'apprentissage du modèle de langage à grande échelle (LLM) existant, et de nouvelles modalités peuvent y être intégrées par un simple prétraitement des données. Nous avons construit un jeu de données multimodal centré sur le texte pour le préapprentissage de l'alignement multimodal et, à l'aide d'un modèle génératif, nous avons synthétisé le premier jeu de données d'instructions multimodales « any-to-any » à grande échelle, composé de 108 000 échantillons entrelaçant de manière complexe diverses modalités. Les résultats expérimentaux démontrent qu'AnyGPT permet des conversations multimodales « any-to-any » tout en obtenant des performances comparables à celles des modèles spécialisés pour toutes les modalités, démontrant ainsi que les représentations discrètes peuvent intégrer efficacement et facilement plusieurs modalités au sein d'un même modèle de langage. Une démonstration est disponible à l'adresse https://junzhan2000.github.io/AnyGPT.github.io/ .

Takeaways, Limitations

Takeaways:
Intégration de diverses modalités sans modifier l'architecture LLM existante
De nouvelles modalités peuvent être ajoutées simplement en prétraitant les données.
Intégration multimodale efficace et pratique à l'aide de représentations discrètes
Atteint des performances comparables à celles des modèles spécialisés dans toutes les modalités
Création du premier ensemble de données multimodales à grande échelle et orientées de manière universelle.
Limitations:
Limitations n'est pas explicitement mentionné dans l'article. Des recherches supplémentaires sont suggérées pour améliorer les performances et surmonter les limitations.
👍