본 논문은 현재 음성 대규모 언어 모델(speech-LLM)이 문맥 추론과 준언어적 이해 능력이 부족한 이유가 이 두 가지 측면을 모두 다루는 질의응답(QA) 데이터셋의 부재 때문이라고 지적합니다. 이에 따라, 다양한 음성 데이터로부터 문맥 추론과 준언어적 정보를 통합한 새로운 데이터셋 생성 프레임워크를 제안합니다. 이 프레임워크는 실제 음성 데이터의 의사 준언어적 레이블 기반 데이터 압축과 LLM 기반 문맥 준언어적 질의응답(CPQA) 생성으로 구성됩니다. 제안된 프레임워크를 통해 생성된 데이터셋과 사람이 생성한 CPQA 데이터셋에 대한 Qwen2-Audio-7B-Instruct 모델 평가 결과는 강한 상관관계를 보이며, 공감 능력을 요구하는 과제에서 음성-LLM의 한계를 드러냅니다. 본 프레임워크는 준언어적 추론 능력을 갖춘 더욱 강력한 음성-LLM을 훈련하는 데 잠재력을 가지는 최초의 시도입니다.