본 논문은 텍스트 음성 변환(TTS) 기술 중에서도 특히 제어 가능한 음성 생성에 초점을 맞춘 종합적인 조사 연구이다. 최근 산업적 수요 증가에 따라 인간과 유사한 음성 합성을 넘어, 감정, 운율, 음색, 지속 시간 등 다양한 속성을 세밀하게 제어할 수 있는 TTS 기술이 발전하고 있다. 본 논문에서는 기본적인 제어 기법부터 자연어 프롬프트를 활용하는 방법까지 다양한 접근 방식을 포괄적으로 검토하며, 현재 연구 현황에 대한 명확한 이해를 제공한다. 일반적인 제어 가능 TTS 파이프라인, 과제, 모델 아키텍처, 제어 전략을 조사하고 기존 방법에 대한 포괄적이고 명확한 분류를 제공한다. 또한 데이터셋과 평가 지표에 대한 자세한 요약을 제공하고, 응용 분야와 미래 방향에 대한 전망을 제시한다. 본 논문은 제어 가능한 TTS 방법에 대한 최초의 포괄적인 검토를 제공하며, 학계 연구자와 산업 종사자 모두에게 유익한 자료가 될 것이다.