대규모 언어 모델(LLM) 사전 학습에서 양질의 데이터를 생성하기 위한 대안으로 합성 데이터가 부상함. 본 연구에서는 저자원 언어 환경에서 특히 유용하며, 인도 언어에 대한 합성 다국어 사전 학습 데이터의 생성 및 평가에 대한 체계적인 연구를 제시함. 10개 언어에 대해 5가지 기술을 사용하여 5,400억 토큰으로 구성된 대규모 합성 데이터 세트 BhashaKritika를 구축함. 문서, 페르소나, 주제에 기반한 생성의 영향을 탐구하고, 프롬프트 지침 및 문서 기반 언어 선택이 데이터 품질에 미치는 영향을 분석하며, 영어 콘텐츠의 번역과 인도 언어의 네이티브 생성 결과를 비교함. 확장 가능하고 언어에 민감한 평가를 지원하기 위해 스크립트 및 언어 감지, 메타데이터 일관성 검사, n-gram 반복 분석, KenLM 모델을 사용한 혼란도 기반 필터링을 통합하는 모듈식 품질 평가 파이프라인을 도입함. 이 프레임워크는 다양한 스크립트와 언어 환경에서 강력한 품질 관리를 가능하게 함. 모델 실행을 통한 실증적 결과는 생성 전략의 주요 트레이드 오프를 보여주고 효과적인 다국어 코퍼스 구축을 위한 모범 사례를 강조함.