본 논문은 대규모 언어 모델(LLM)이 비영어권 언어에서 문화적 기반 추론을 수행할 수 있는 정도를 탐구한다. 7개의 주요 인도 언어(벵골어, 구자라트어, 힌디어, 칸나다어, 말라얄람어, 타밀어, 텔루구어)에서 LLM의 추론 및 자기 평가 능력을 조사한다. 전통적인 수수께끼와 문맥 재구성 변형을 결합한 다국어 수수께끼 데이터 세트를 도입하고, Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, LLaMA 4 Maverick의 5가지 LLM을 7가지 프롬프트 전략으로 평가한다. 수수께끼 해결 성능을 평가한 결과, Gemini 2.5 Pro가 전반적으로 가장 우수했지만, 소수 샷 방법은 미미한 이득을 보였으며, 언어에 따라 정확도가 현저히 달랐다. 또한 추론 일관성을 측정하기 위해 자기 평가 실험을 실시한 결과, 모델의 초기 정확도가 자신의 실수를 식별하는 능력과 반비례 관계에 있다는 중요한 사실을 발견했다. Gemini 2.5 Pro와 같은 상위 모델은 과신(4.34% 진음성률)하는 반면, LLaMA 4 Scout와 같은 하위 모델은 훨씬 더 자기 인식적(42.09% 진음성률)이었다.