본 논문은 인간-기계 대화에서 다모달 신호(언어, 음향, 시각)를 사용한 발화권 전환 및 백채널 행동 예측의 공백을 해결합니다. 기존 데이터셋의 한계를 극복하기 위해, 210시간 이상의 인간 대화 비디오를 수집하고 주석을 달 수 있는 자동 데이터 수집 파이프라인을 제안합니다. 이를 통해 150만 단어 이상과 약 2천만 프레임의 발화권 전환 및 백채널 주석이 포함된 다모달 대면(MM-F2F) 인간 대화 데이터셋을 구축했습니다. 또한, 다모달 신호로부터 발화권 전환 및 백채널 행동의 확률을 예측하는 종단 간 프레임워크를 제시합니다. 제안된 모델은 모달 간의 상호 관계를 강조하고 텍스트, 오디오, 비디오 입력의 모든 조합을 지원하여 다양한 현실적인 시나리오에 적용 가능합니다. 실험 결과, 제안된 접근 방식은 발화권 전환 및 백채널 예측 작업에서 최첨단 성능을 달성하여 발화권 전환에서 F1 점수가 10% 증가하고 백채널 예측에서 33% 증가했습니다. 데이터셋과 코드는 공개적으로 온라인에서 제공되어 후속 연구를 용이하게 합니다.