본 논문은 확산 모델 기반의 노래 음성 합성(SVS) 분야에서 언어 인지 임베딩과 보컬 스타일 기반 학습 메커니즘을 통합한 LAPS-Diff를 제안합니다. 특히, 자원 제약적인 환경에서 볼리우드 힌두어 노래 스타일에 특화된 모델을 개발했습니다. 힌디어 SVS 데이터셋을 구축하고, 사전 훈련된 언어 모델을 활용하여 가사에 대한 풍부한 표현을 위해 단어 및 음소 수준 임베딩을 추출했습니다. 또한 스타일 인코더와 피치 추출 모델을 통합하여 스타일 및 피치 손실을 계산함으로써, 합성된 노래의 자연스러움과 표현력을 향상시켰습니다. MERT 및 IndicWav2Vec 모델을 사용하여 음악 및 컨텍스트 임베딩을 추출하여 음향 특징 생성 과정을 추가로 개선했습니다. 제한된 데이터셋 환경에서 LAPS-Diff는 기존 SOTA 모델보다 생성된 샘플의 품질을 유의미하게 향상시켰습니다.