본 논문은 다양한 문화를 묘사하는 AI 챗봇에 대한 관심이 높아짐에 따라, 대규모 언어 모델(LLM)이 생성한 이야기에서 문화적 오해를 평가하는 연구를 제시한다. 인도 문화적 정체성을 대상으로 하며, 초점 그룹 (N=9)과 개별 설문조사 (N=15)를 통해 인도 거주자들의 경험을 수집하여 문화적 오해의 분류 체계인 TALES-Tax를 개발했다. 이를 바탕으로 6개의 모델을 평가했으며, 108명의 인도 출신 주석가들이 2,925건의 주석을 수행했다. 연구 결과, 생성된 이야기의 88% 이상에서 문화적 부정확성이 발견되었으며, 특히 저자원 언어 및 인도 교외 지역을 배경으로 하는 이야기에서 더 두드러졌다. 또한, 주석을 기반으로 foundational 모델의 문화적 지식을 평가하기 위한 TALES-QA 질문 은행을 구축했다. 놀랍게도 모델은 문화적 오해를 생성함에도 불구하고 필요한 문화적 지식을 갖추고 있는 것으로 나타났다.