MISP 2025 챌린지의 결과를 요약한 논문입니다. 복잡한 음향 환경으로 인해 어려움을 겪는 회의 환경에서의 음성 애플리케이션을 개선하기 위해, 오디오와 함께 비디오 모달리티를 통합한 다중 모달, 다중 장치 회의 녹취에 초점을 맞추었습니다. 과제는 Audio-Visual Speaker Diarization (AVSD), Audio-Visual Speech Recognition (AVSR), Audio-Visual Diarization and Recognition (AVDR) 세 가지로 구성되며, 참가자들의 기준 시스템과 해결책, 그리고 우수한 성능을 달성한 시스템들을 제시합니다. 최고 성능 시스템은 기준 시스템 대비 AVSD에서 7.43% 향상(DER 8.09%), AVSR에서 10.62% 향상(CER 9.48%), AVDR에서 72.49% 향상(cpCER 11.56%)을 달성했습니다.