Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Voyager à travers les langues : évaluation de la cohérence interlinguistique dans les LLM multimodaux

Created by
  • Haebom

Auteur

Hao Wang, Pinzhi Huang, Jihan Yang, Saining Xie, Daisuke Kawahara

Contour

Cet article souligne que malgré les progrès rapides des applications pratiques des modèles linguistiques multimodaux à grande échelle (MLLM), l'obtention de performances cohérentes entre les langues demeure un défi majeur, notamment lors de l'intégration des connaissances culturelles. Pour mieux évaluer ce problème, les chercheurs présentent deux nouveaux benchmarks : KnowRecall, un benchmark de questions-réponses visuelles axé sur des questions culturelles et historiques dans 15 langues, et VisRecall, qui tente de décrire l'apparence de points de repère dans neuf langues sans accès à des images. Les résultats expérimentaux montrent que les MLLM de pointe, y compris les modèles propriétaires, peinent encore à assurer la cohérence interlinguistique. Cela souligne la nécessité d'approches plus robustes pour générer des modèles véritablement multilingues et culturellement adaptés.

Takeaways, Limitations_

Takeaways : Présente de nouveaux critères de référence (KnowRecall, VisRecall) qui démontrent clairement les limites des MLLM de pointe en matière d'intégration des connaissances multilingues et culturelles. Souligne la nécessité de modèles véritablement multilingues et culturellement adaptés. Établit de nouveaux critères d'évaluation de la cohérence interlinguistique des MLLM.
Limitations: Le benchmark présenté peut avoir une couverture linguistique et culturelle limitée. La conception du benchmark lui-même n'évalue que certains aspects de MLLM ; il peut donc ne pas refléter pleinement la performance globale de MLLM. L'évaluation des langues minoritaires peut être insuffisante.
👍