본 논문은 인도어인 힌디어에 대한 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크인 힌디어 유추 테스트 세트(HATS)를 제안한다. HATS는 인도 정부 시험에서 출제된 405개의 객관식 문제로 구성되며, 다양한 프롬프팅 전략을 사용하여 최첨단 다국어 LLM을 벤치마킹한다. 특히, 인지적 유추 추론 이론을 활용한 grounded Chain of Thought 접근 방식을 제시하여 힌디어 유추 문제에 대한 모델 성능을 향상시킨다. 실험 결과, 프롬프팅 전략에 관계없이 영어 프롬프트를 사용했을 때 모델 성능이 가장 우수한 것으로 나타났다. 본 연구는 힌디어 LLM 추론 능력 평가를 위한 중요한 자원 부족 문제를 해결한다.