Nexus-Gen est un article proposant une nouvelle architecture intégrant les tâches de compréhension, de génération et d'édition d'images dans un espace d'intégration d'images partagé. L'objectif est d'intégrer harmonieusement les atouts des modèles autorégressifs et de diffusion afin de surmonter les limites des modèles intégrés existants, telles que la faible qualité de synthèse d'images, l'accumulation d'erreurs autorégressives et le manque de capacités d'édition d'images. Nous proposons notamment une nouvelle stratégie autorégressive de pré-remplissage qui pré-remplit les séquences d'entrée avec des intégrations apprenables afin de limiter l'accumulation d'erreurs importantes lors de la prédiction d'intégrations autorégressives. À l'aide d'un vaste ensemble de données de 26,3 millions d'échantillons, nous effectuons un apprentissage multi-étapes et multi-tâches et obtenons des performances de pointe lors de tests d'évaluation couvrant les tâches de compréhension, de génération et d'édition d'images. Tous les modèles, ensembles de données et codes sources sont accessibles publiquement sur GitHub.