Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Hulk est le premier modèle de généralisation multimodal centré sur l'humain capable de gérer diverses tâches perceptives centrées sur l'humain, notamment la vision 2D et 3D, les tâches squelettiques et les tâches de vision-langage. Les modèles centrés sur l'humain existants présentent des limites, notamment leur incapacité à gérer les tâches 3D et de vision-langage, et la nécessité d'un réglage fin spécifique à chaque tâche. Pour relever ces défis, Hulk intègre diverses têtes spécifiques à chaque tâche en deux têtes générales : une pour les représentations discrètes (par exemple, le langage) et une pour les représentations continues (par exemple, les coordonnées). Cette représentation unifiée permet à Hulk de gérer diverses tâches centrées sur l'humain avec transformation de modalité et d'intégrer les connaissances à un large éventail de tâches. Une évaluation complète sur 12 tests couvrant huit tâches centrées sur l'humain démontre la supériorité de la méthode proposée, atteignant des performances de pointe sur 11 tests. Le code est disponible à l' adresse https://github.com/OpenGVLab/Hulk .
Nous présentons le premier modèle multimodal capable de gérer diverses tâches de perception centrées sur l'humain (vision 2D/3D, basée sur le squelette et vision-langage) sans réglage fin spécifique à la tâche.
◦
La représentation unifiée via deux têtes communes permet l'intégration des connaissances et la conversion des modalités entre diverses tâches.
◦
A atteint des performances de pointe dans 11 des 12 benchmarks.
◦
Développer la recherche et accroître la convivialité grâce à la divulgation de sources ouvertes.
•
Limitations:
◦
La vérification des performances de généralisation est nécessaire pour des tâches autres que les benchmarks actuellement présentés.
◦
Une analyse plus approfondie de la taille du modèle et du coût de calcul est nécessaire.
◦
Des recherches supplémentaires sont nécessaires pour optimiser les performances de tâches spécifiques.