本論文は、インド語であるヒンディー語に対する大規模言語モデル(LLM)の推論能力を評価するための新しいベンチマークであるヒンディー語推論テストセット(HATS)を提案する。 HATSはインド政府試験で出題された405の多肢選択問題で構成され、さまざまなプロンプト戦略を使用して最先端の多言語LLMをベンチマークします。具体的には、認知的推論推論理論を活用した大規模なチェーン・オブ・ザイトアプローチを提示し、ヒンディー語推論問題のモデル性能を改善する。実験の結果、プロンプト戦略に関係なく、英語のプロンプトを使用した場合、モデルのパフォーマンスが最も優れていることがわかりました。本研究はヒンディー語LLM推論能力評価のための重要な資源不足問題を解決する。