본 논문은 실시간 중첩 대화 상호작용을 가능하게 하는 Full-Duplex Speech Language Model (FD-SLM)을 평가하기 위한 새로운 벤치마크인 MTR-DuplexBench를 소개합니다. 기존 벤치마크가 단일 라운드 상호작용에 초점을 맞추고 다중 라운드 통신의 복잡성, 지시 따르기, 안전성을 간과하는 문제를 해결하고자 합니다. MTR-DuplexBench는 연속적인 full-duplex 대화를 개별 턴으로 분할하여 대화 품질, 대화 역학, 지시 따르기, 안전성 등 다양한 측면에서 FD-SLM의 턴별 평가를 가능하게 합니다. 실험 결과는 현재 FD-SLM이 여러 라운드와 평가 차원에서 일관된 성능을 유지하는 데 어려움을 겪고 있음을 보여주며, 제안된 벤치마크의 필요성과 효과를 강조합니다.