본 논문은 대규모 언어 모델(LLM)이 비유적이고 문화적으로 기반한 추론 능력, 특히 저자원 환경에서 부족하다는 점을 지적하며, 이를 평가하기 위한 벵골어 기반의 콤팩트하고 풍부하게 주석 처리된 챌린지 세트인 BengaliFig를 제시합니다. 이 데이터 세트는 벵골 구전 및 문학 전통에서 추출한 435개의 수수께끼를 포함하며, 추론 유형, 함정 유형, 문화적 깊이, 정답 범주 및 난이도 등 5가지 차원으로 주석 처리됩니다. 또한, AI 기반 파이프라인을 통해 객관식 형식으로 자동 변환됩니다. 8개의 최첨단 LLM을 제로 샷 및 소수 샷 사고 사슬(chain-of-thought) 프롬프팅으로 평가한 결과, 은유적이고 문화적으로 특정한 추론에서 일관된 약점을 보였습니다. BengaliFig는 저자원 문화적 맥락에서 LLM의 견고성을 평가하는 진단 도구이자, 포괄적이고 유산(heritage)을 고려하는 NLP 평가를 위한 발걸음을 제시합니다.