본 논문은 GPT-4o의 성능에 영감을 받아, 자연스러운 음성 대화를 가능하게 하는 음성 언어 모델(SLM)에 대한 연구를 다룬다. 기존 연구들이 단일 채널 음성 데이터에 집중한 것과 달리, 본 논문은 이중 채널 음성 데이터를 활용하여 대화의 구조와 역동성을 더 잘 포착하고자 한다. 이를 위해, 디코더 전용 아키텍처를 사용하는 새로운 생성 모델링 패러다임인 Next-Token-Pair Prediction (NTPP)을 제안한다. NTPP는 화자 독립적인 이중 채널 음성 대화 학습을 가능하게 하며, 기존 방법들보다 대화 참여 예측, 응답 일관성, 자연스러움 측면에서 SLM의 대화 능력을 크게 향상시킨다. 또한, 추론 지연 시간이 훨씬 짧아 실시간 응용에 효율적임을 보여준다.