Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multimodal Transformer Models for Turn-taking Prediction: Effects on Conversational Dynamics of Human-Agent Interaction during Cooperative Gameplay

Created by
  • Haebom
Category
Empty

저자

Young-Ho Bae, Casey C. Bennett

개요

본 연구는 인간-에이전트 상호작용(HAI), 특히 협력적 게임 환경에서의 다중 모달 턴-테이킹 예측을 조사합니다. 모델 개발과 사용자 연구를 통해 음성 대화 시스템(SDS)의 대화 역학에 대한 이해를 높이고 개선하는 것을 목표로 합니다. 텍스트, 비전, 오디오, 게임 내 상황 데이터를 동시에 통합하는 새로운 트랜스포머 기반 심층 학습(DL) 모델을 제시하여 실시간으로 턴-테이킹 이벤트를 예측합니다. Crossmodal Transformer 아키텍처를 사용하여 다양한 모달리티의 정보를 효과적으로 융합하여 보다 포괄적인 턴-테이킹 예측을 가능하게 합니다. 모델은 기준 모델보다 우수한 성능(정확도 87.3%, macro F1 점수 83.0%)을 보였습니다. "굶지마 투게더" 게임을 플레이하는 동안 가상 아바타와의 상호 작용 시나리오에서 턴-테이킹 DL 모델을 경험적으로 평가하기 위해 사용자 연구를 수행했습니다. 턴-테이킹 예측 없이(n=20) 제어 조건과 모델을 적용한 실험 조건(n=40)을 비교했습니다. 영어와 한국어 사용자를 모두 포함하여 문화에 따른 턴-테이킹 신호의 차이를 고려했습니다. 발화 횟수, 중단 빈도, 참가자의 아바타 인식 등 상호 작용 품질을 분석했습니다. 다중 모달 턴-테이킹 모델은 인간-에이전트 대화의 유연성과 자연스러움을 향상시키고 대화 빈도를 크게 변경하지 않고 균형 잡힌 대화 역학을 유지한다는 것을 발견했습니다. 턴-테이킹 능력이 사용자 인식과 상호 작용 품질에 미치는 영향에 대한 심층적인 통찰력을 제공하여 보다 상황에 맞는 적응적이고 반응적인 대화 에이전트의 잠재력을 강조합니다.

시사점, 한계점

시사점:
다중 모달 정보 융합을 통한 향상된 턴-테이킹 예측 성능 (87.3% 정확도, 83.0% macro F1 점수)
턴-테이킹 모델이 인간-에이전트 상호 작용의 자연스러움과 유연성을 향상시키는 것을 실증적으로 확인
문화적 차이를 고려한 다양한 사용자 그룹을 포함한 사용자 연구 수행
상호 작용 품질에 대한 깊이 있는 분석을 통해 턴-테이킹 모델의 효과를 검증
한계점:
특정 게임 환경("굶지마 투게더")에 국한된 연구 결과
상대적으로 제한된 사용자 샘플 크기 (총 60명)
모델의 일반화 가능성에 대한 추가 연구 필요
다양한 게임 유형 및 상호 작용 유형으로의 확장성 검토 필요
👍