본 논문은 인간-기계 대화에서 다중 모달 신호(언어, 음향, 시각)를 사용하여 턴 테이킹과 백채널 행동을 예측하는 데 존재하는 간극을 해결합니다. 기존 데이터셋의 한계를 극복하기 위해 210시간 이상의 인간 대화 비디오를 수집하고 주석을 달 수 있는 자동 데이터 수집 파이프라인을 제안합니다. 이를 통해 150만 단어 이상과 약 2천만 프레임의 턴 테이킹 및 백채널 주석이 포함된 다중 모달 페이스 투 페이스(MM-F2F) 인간 대화 데이터셋을 구성합니다. 또한 다중 모달 신호로부터 턴 테이킹 및 백채널 행동의 확률을 예측하는 엔드-투-엔드 프레임워크를 제시합니다. 제안된 모델은 모달 간의 상호 관계를 강조하고 텍스트, 오디오, 비디오 입력의 모든 조합을 지원하여 다양한 현실적인 시나리오에 적용할 수 있습니다. 실험 결과, 제안된 방법은 턴 테이킹 및 백채널 예측 작업에서 최첨단 성능을 달성하여 턴 테이킹에서 F1 점수가 10% 증가하고 백채널 예측에서 33% 증가했습니다. 데이터셋과 코드는 공개적으로 온라인에서 제공되어 후속 연구를 용이하게 합니다.