본 논문은 문맥 추론과 준언어적 이해 능력이 제한적인 현 Speech-LLM의 한계를 해결하기 위해, 두 가지 측면을 모두 포함하는 질의응답(QA) 데이터셋 생성을 위한 새로운 프레임워크를 제안합니다. 이 프레임워크는 실제 음성 데이터를 이용하여 의사 준언어적 레이블 기반 데이터 압축과 LLM 기반 문맥적 준언어적 QA (CPQA) 생성으로 구성됩니다. 제안된 프레임워크를 통해 생성된 데이터셋과 사람이 생성한 CPQA 데이터셋에 대한 Qwen2-Audio-7B-Instruct 모델 평가 결과는 강한 상관관계를 보였습니다. 그러나 공감적 추론 과제에서 Speech-LLM의 한계를 드러내며, 이러한 데이터셋과 더욱 강력한 모델의 필요성을 강조했습니다. 본 논문에서 제안하는 프레임워크는 최초의 시도이며, 준언어적 추론 능력을 갖춘 더욱 강력한 Speech-LLM을 훈련하는 데 잠재력을 가지고 있습니다.