본 논문은 비디오에 여러 사람이 등장하는 복잡한 환경에서 목표 화자의 음성을 분리하는 새로운 방법을 제시합니다. 기존의 음성-영상 화자 분리 방법은 목표 화자의 얼굴 영상만을 사용하는 반면, 본 논문에서는 화면에 함께 나타나는 다른 사람들의 얼굴 정보도 활용하여 화자 활동 정보를 추가적으로 고려합니다. 이를 위해, 다양한 수의 동시 출현 얼굴들을 처리할 수 있는 플러그 앤 플레이 방식의 화자 간 어텐션 모듈을 제안하고, AV-DPRNN과 AV-TFGridNet이라는 두 가지 주요 모델에 통합합니다. VoxCeleb2, MISP, LRS2, LRS3 등 다양한 데이터셋에 대한 실험 결과, 제안된 방법이 기존 방법보다 성능이 우수하며, 데이터셋 간의 일반화 성능도 뛰어남을 보여줍니다.