Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation de l'alignement multilingue et à code commuté dans les LLM via l'inférence synthétique en langage naturel

Created by
  • Haebom

Auteur

Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban

Contour

Cet article présente un cadre d'évaluation contrôlé pour évaluer la capacité des modèles linguistiques à grande échelle (MLE) à asseoir leur cohérence de manière cohérente et logique dans des environnements multilingues. Nous générons des paires prémisses-hypothèses synthétiques, basées sur la logique, traduites dans un ensemble de langues morphologiquement diverses et effectuons des tests dans des conditions monolingues et mixtes (alternance de code). Nous démontrons le résultat surprenant selon lequel l'alternance de code peut améliorer les performances plutôt que les dégrader, suggérant que les changements lexicaux induits par la traduction peuvent servir de signaux régulateurs. Nous vérifions la fidélité des paires traduites à l'aide d'une analyse de similarité basée sur l'intégration et d'une visualisation de l'alignement interlinguistique. En conclusion, nous démontrons le potentiel et les vulnérabilités de l'inférence interlinguistique actuelle dans les MLE et présentons l'alternance de code comme une approche prometteuse pour améliorer la robustesse multilingue.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre contrôlé pour l'évaluation NLI multilingue.
Nous démontrons que le changement de code peut contribuer à améliorer les performances de raisonnement multilingue du LLM.
Suggérant que les changements lexicaux dus à la traduction peuvent agir comme des signaux régulateurs pour le modèle.
Il démontre simultanément le potentiel et la vulnérabilité des capacités de raisonnement interlinguistique du LLM.
Limitations:
L’évaluation basée sur des données synthétiques nécessite la vérification de la généralisabilité aux données du monde réel.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des résultats à des ensembles de langues et des LLM spécifiques.
Une analyse plus approfondie des effets du changement de code et l’identification de ses mécanismes sont nécessaires.
👍