본 논문은 인간-로봇 상호작용(HRI)에서 로봇의 설명 가능성과 사용자 중심 설계를 개선하기 위해, 음성 및 시각 정보와 같은 다중 모달 입력을 효과적으로 인지하고 추론하는 일반화되고 설명 가능한 다중 모달 컨텍스트 표현 프레임워크를 제안한다. 사용자의 언어적 발화와 로봇의 시각적 장면 인식 간의 '관련성' 평가를 사용 사례로 제시하며, 다중 모달 결합 표현 모듈과 시간 정렬 모듈을 통해 다중 모달 입력의 시간적 정렬을 통한 관련성 평가 방법론을 제시한다. 마지막으로, 제안된 컨텍스트 표현 프레임워크가 HRI의 설명 가능성 향상에 기여하는 방식을 논의한다.