[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HATS : Ensemble de tests d'analogie hindi pour l'évaluation du raisonnement dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Ashray Gupta, Rohan Joseph, Sunny Rai

Contour

Dans cet article, nous présentons un nouvel ensemble de données, le Hindi Analogy Test Set (HATS), permettant d'évaluer les performances d'analogie en hindi. Le HATS se compose de 405 questions à choix multiples tirées d'examens gouvernementaux indiens et permet d'évaluer les performances d'analogie de divers modèles linguistiques. Dans cet article, nous évaluons des LLM multilingues de pointe à l'aide de diverses stratégies d'incitation et d'une approche fondée sur la chaîne de pensée fondée sur la théorie cognitive. Nous proposons également une méthode pour améliorer les performances des modèles aux tâches d'analogie en hindi. Les résultats expérimentaux montrent que les performances du modèle sont optimales lorsque des invites en anglais sont utilisées, quelle que soit la stratégie d'incitation. Cette étude aborde le manque critique de ressources pour évaluer les performances de raisonnement des LLM en hindi.

Takeaways, Limitations

Takeaways:
Nous fournissons un nouvel ensemble de données HATS pour évaluer la capacité de raisonnement LLM en langue hindi.
Nous démontrons que l’approche de la chaîne de pensée ancrée contribue à améliorer les performances du modèle sur le problème d’inférence hindi.
Il contribue à évaluer la capacité analogique des LLM multilingues et à analyser leur capacité à généraliser entre les langues.
Nous examinons l’efficacité des invites en anglais et suggérons des orientations pour les recherches futures.
Limitations:
Actuellement, HATS est limité aux questions d’examen du gouvernement indien et peut ne pas refléter pleinement les divers types d’analogies dans la langue hindi.
Le type et la taille du LLM utilisé pour l’évaluation peuvent être limités.
La découverte selon laquelle les invites en anglais sont les plus efficaces suggère la nécessité de prendre en compte les biais interlinguistiques.
Des recherches supplémentaires sont nécessaires pour explorer la généralisabilité de l’approche de la chaîne de pensée ancrée.
👍