본 논문은 대규모 언어 모델이 광범위한 다국어 벤치마크에서는 뛰어나지만, 비유적이고 문화적으로 기반한 추론, 특히 저자원 환경에서 광범위하게 평가되지 않았다는 점에 주목한다. 벵골어를 대상으로 하는 콤팩트하면서도 풍부하게 주석이 달린 챌린지 세트인 BengaliFig를 제시한다. 이 데이터 세트는 벵골 구전 및 문학 전통에서 가져온 435개의 독특한 수수께끼를 포함한다. 각 항목은 추론 유형, 함정 유형, 문화적 깊이, 정답 범주 및 난이도의 다섯 가지 직교 차원을 따라 주석이 달리고, 제약 조건을 인식하는 AI 기반 파이프라인을 통해 자동으로 객관식 형식으로 변환된다. 주요 제공 업체의 8가지 최첨단 LLM을 제로샷 및 퓨샷 사고 사슬 프롬프팅으로 평가하여 은유적이고 문화적으로 특정한 추론에서 일관된 약점을 드러낸다. 따라서 BengaliFig는 저자원 문화적 맥락에서 LLM의 견고성을 평가하기 위한 진단 프로브와 포괄적이고 유산 인지적인 NLP 평가를 위한 단계 모두에 기여한다.