Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Multilingual LLMs Are Not Multilingual Thinkers: Evidence from Hindi Analogy Evaluation

Created by
  • Haebom

作者

Ashray Gupta, Rohan Joseph, Sunny Rai

概要

本論文は、インド語であるヒンディー語に対する大規模言語モデル(LLM)の推論能力を評価するための新しいベンチマークであるヒンディー語推論テストセット(HATS)を提案する。 HATSはインド政府試験で出題された405の多肢選択問題で構成され、さまざまなプロンプト戦略を使用して最先端の多言語LLMをベンチマークします。具体的には、認知的推論推論理論を活用した大規模なチェーン・オブ・ザイトアプローチを提示し、ヒンディー語推論問題のモデル性能を改善する。実験の結果、プロンプト戦略に関係なく、英語のプロンプトを使用した場合、モデルのパフォーマンスが最も優れていることがわかりました。本研究はヒンディー語LLM推論能力評価のための重要な資源不足問題を解決する。

Takeaways、Limitations

Takeaways:
ヒンディー語を含むインド語に対するLLMの推論能力を評価するための新しいベンチマーク(HATS)を提供します。
Grounded Chain of ThoughtアプローチによるLLMのヒンディー語推論問題解決能力の向上
多言語LLMの言語一般化能力の理解の促進
英語プロンプトの有効性を確認します。
Limitations:
HATSはインド政府の試験問題に基づいているため、一般的なヒンディー語推論問題を完全に反映できない可能性があります。
現在の研究は特定のLLMとプロンプト戦略に限定されており、他のモデルや戦略の一般化の可能性は限られています。
英語プロンプトの卓越性のさらなる分析と理由の解明が必要です。
👍