Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Cadre NativQA : permettre aux LLM de s'appuyer sur des connaissances natives, locales et quotidiennes

Created by
  • Haebom

Auteur

Firoj Alam, Md Arid Hasan, Sahinur Rahman Laskar, Mucahid Kutlu, Kareem Darwish, Shammur Absar Chowdhury

Contour

Cet article aborde la nécessité de développer des ressources à grande échelle axées sur les contextes multilingues, régionaux et culturels afin de répondre aux préoccupations concernant les préjugés culturels, l'équité et l'applicabilité des modèles linguistiques à grande échelle (MLH) dans diverses langues et régions à faibles ressources. À cette fin, nous proposons le cadre NativQA, qui permet de créer facilement des ensembles de données de questions-réponses (QA) à grande échelle adaptés à diverses cultures et régions en exploitant des requêtes d'amorçage définies par l'utilisateur et en récupérant des informations quotidiennes spécifiques au site via des moteurs de recherche. Les évaluations menées dans 24 pays, 39 régions et 7 langues (des langues à faibles ressources aux langues à fortes ressources) ont produit plus de 300 000 paires questions-réponses qui peuvent être utilisées pour l'analyse comparative des LMH et leur affinement. Le cadre NativQA est accessible au public ( https://gitlab.com/nativqa/nativqa-framework ).

Takeaways, Limitations

Takeaways:
Fournit un cadre efficace pour la création d'ensembles de données d'assurance qualité à grande échelle qui prennent en compte les contextes multilingues, régionaux et culturels.
ÉValuer et améliorer les performances du LLM dans divers environnements linguistiques, y compris les langues à faibles ressources
Faciliter l'engagement et l'avancement de la communauté de recherche grâce à des cadres ouverts
Limitations:
Dépendance aux moteurs de recherche : la qualité de votre ensemble de données peut être affectée par la qualité des résultats des moteurs de recherche.
Potentiel de biais régional : la collecte de données peut être biaisée selon la région.
Taille de l'ensemble de données : 300 000 paires QA peuvent ne pas être suffisantes pour une formation LLM à grande échelle.
Généralisabilité du cadre : des recherches supplémentaires sont nécessaires sur son applicabilité à d’autres contextes linguistiques et culturels.
👍