본 논문은 텍스트-오디오 모델의 출력 특성을 정량적으로 분석하기 위해, PCG(Procedural Generated Content) 분야에서 사용되는 ERA(Expressive Range Analysis)를 텍스트-오디오 모델에 적용한 연구입니다. 특히, ESC-50 데이터셋 기반의 표준화된 프롬프트를 사용하여 모델이 생성하는 오디오의 음향적 특성(음고, 음량, 음색 등)을 분석하고, 이를 통해 생성된 오디오의 표현 범위를 파악하는 프레임워크를 제시합니다.