Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Raisonnement à longue chaîne de pensée à travers les langues

Created by
  • Haebom

Auteur

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

Contour

Cet article explore l'extension multilingue des processus de pensée longs (CoT), qui contribuent à l'amélioration des performances d'inférence des modèles linguistiques à grande échelle (LLM). Nous avons affiné les modèles Qwen 2.5 (7B) et Qwen 3 (8B) en utilisant deux jeux de données d'inférence basés sur l'anglais traduits en français, japonais, letton et swahili. Les expériences ont révélé que l'efficacité de l'utilisation de l'anglais comme langue de transition variait selon les langues (inefficace pour le français, efficace pour le japonais et le letton, et faible pour le swahili). De plus, un pré-entraînement multilingue approfondi dans Qwen 3 a réduit, sans toutefois éliminer complètement, l'écart de performance entre les langues. Le réglage fin sur un petit jeu de données (1 000 traces) à lui seul a amélioré les performances en swahili de plus de 30 %. Enfin, le compromis entre qualité des données et échelle variait selon les langues : l'anglais et le français bénéficiaient de jeux de données plus petits et plus raffinés, tandis que le swahili et le letton bénéficiaient de corpus plus grands et plus bruités. Ces résultats clarifient comment et pourquoi les longs CoT sont transférés entre les langues et fournissent un ensemble de données traduites pour des études d'inférence multilingue équitables.

Takeaways, Limitations

Takeaways:
L’efficacité de l’utilisation de l’anglais comme langue de médiation varie selon les langues.
Nous présentons l’importance de l’apprentissage du dictionnaire multilingue et l’efficacité du réglage fin sur de petits ensembles de données.
Nous montrons que le compromis entre la qualité des données et l’échelle varie selon les langues.
Fournir des ensembles de données traduits pour la recherche d'inférence multilingue.
Limitations:
Le nombre de langues utilisées dans l’étude est limité.
Il est possible que les résultats soient limités à un modèle LLM spécifique.
Des recherches supplémentaires sont nécessaires sur la généralisabilité à différents types de tâches de raisonnement.
👍