본 연구는 인간-에이전트 상호작용(HAI), 특히 협력적 게임 환경에서의 다중 모달 턴-테이킹 예측을 조사합니다. 모델 개발과 사용자 연구를 통해 음성 대화 시스템(SDS)의 대화 역학에 대한 이해를 높이고 개선하는 것을 목표로 합니다. 텍스트, 비전, 오디오, 게임 내 상황 데이터를 동시에 통합하는 새로운 트랜스포머 기반 심층 학습(DL) 모델을 제시하여 실시간으로 턴-테이킹 이벤트를 예측합니다. Crossmodal Transformer 아키텍처를 사용하여 다양한 모달리티의 정보를 효과적으로 융합하여 보다 포괄적인 턴-테이킹 예측을 가능하게 합니다. 모델은 기준 모델보다 우수한 성능(정확도 87.3%, macro F1 점수 83.0%)을 보였습니다. "굶지마 투게더" 게임을 플레이하는 동안 가상 아바타와의 상호 작용 시나리오에서 턴-테이킹 DL 모델을 경험적으로 평가하기 위해 사용자 연구를 수행했습니다. 턴-테이킹 예측 없이(n=20) 제어 조건과 모델을 적용한 실험 조건(n=40)을 비교했습니다. 영어와 한국어 사용자를 모두 포함하여 문화에 따른 턴-테이킹 신호의 차이를 고려했습니다. 발화 횟수, 중단 빈도, 참가자의 아바타 인식 등 상호 작용 품질을 분석했습니다. 다중 모달 턴-테이킹 모델은 인간-에이전트 대화의 유연성과 자연스러움을 향상시키고 대화 빈도를 크게 변경하지 않고 균형 잡힌 대화 역학을 유지한다는 것을 발견했습니다. 턴-테이킹 능력이 사용자 인식과 상호 작용 품질에 미치는 영향에 대한 심층적인 통찰력을 제공하여 보다 상황에 맞는 적응적이고 반응적인 대화 에이전트의 잠재력을 강조합니다.