[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models

Created by
  • Haebom

作者

Ashray Gupta, Rohan Joseph, Sunny Rai

概要

この論文では、インド語(Hindi)の推論能力を評価するための新しいデータセットであるHATS(Hindi Analogy Test Set)を紹介します。 HATSは、インド政府試験から抜粋された405の多肢選択問題で構成され、さまざまな言語モデルの推定能力を評価するために使用されます。論文では、最先端の多言語LLMをさまざまなプロンプト戦略と認知理論に基づいたgrounded Chain of Thoughtアプローチを使用して評価し、Hindi推論問題でモデルのパフォーマンスを向上させる方法を紹介します。実験の結果、プロンプト戦略に関係なく、英語のプロンプトを使用した場合、モデルのパフォーマンスが最も優れていることがわかりました。この研究は、Hindi言語のLLM推論能力を評価するための重要なリソース不足の問題を解決します。

Takeaways、Limitations

Takeaways:
Hindi言語のLLM推論能力評価のための新しいデータセットHATSを提供します。
Grounded Chain of ThoughtアプローチがHindi推論問題におけるモデル性能の向上に寄与することを示した。
多言語LLMの推論能力を評価し、言語間一般化能力の分析に貢献します。
英語のプロンプトの効果を確認し、今後の研究方向を提示します。
Limitations:
現在、HATSはインド政府試験の問題に限定されており、Hindi言語のさまざまな類推タイプを完全に反映していない可能性があります。
評価に使用されるLLMの種類とサイズは限られている可能性があります。
英語プロンプトが最も効果的であるという結果は、言語間の偏りを考慮する必要性を示唆しています。
Grounded Chain of Thoughtアプローチの一般化の可能性に関するさらなる研究が必要である。
👍