この論文では、インド語(Hindi)の推論能力を評価するための新しいデータセットであるHATS(Hindi Analogy Test Set)を紹介します。 HATSは、インド政府試験から抜粋された405の多肢選択問題で構成され、さまざまな言語モデルの推定能力を評価するために使用されます。論文では、最先端の多言語LLMをさまざまなプロンプト戦略と認知理論に基づいたgrounded Chain of Thoughtアプローチを使用して評価し、Hindi推論問題でモデルのパフォーマンスを向上させる方法を紹介します。実験の結果、プロンプト戦略に関係なく、英語のプロンプトを使用した場合、モデルのパフォーマンスが最も優れていることがわかりました。この研究は、Hindi言語のLLM推論能力を評価するための重要なリソース不足の問題を解決します。