본 논문은 GPT-4o의 능력에 영감을 받아, 사람과 자연스러운 음성 대화를 할 수 있는 음성 언어 모델(SLM)에 대한 관심이 증가하고 있음을 배경으로 한다. 기존 SLM들이 유망한 결과를 보여주고 있지만, 인간 대화의 구조와 역동성을 포착하는 이중 채널 음성 데이터를 충분히 활용하지 못하고 있다는 점을 지적한다. 본 연구는 최신 거대 언어 모델에 이중 채널 음성 데이터를 체계적으로 활용하고, 디코더 전용 아키텍처를 사용하여 화자 독립적인 이중 채널 음성 대화 학습을 가능하게 하는 새로운 생성 모델 패러다임인 Next-Token-Pair Prediction (NTPP)을 제시한다. 표준 벤치마크 평가 결과, NTPP는 턴 취하기 예측, 응답 일관성, 자연스러움 측면에서 SLM의 대화 능력을 크게 향상시키는 것으로 나타났으며, 기존 방법보다 훨씬 낮은 추론 지연 시간을 달성하여 실시간 응용에 대한 실용성을 강조한다.