MISP 2025 Challenge는 Interspeech 2025에서 개최된 멀티모달, 멀티디바이스 회의 녹취에 중점을 둔 챌린지입니다. 복잡한 음향 환경으로 인해 어려움을 겪는 회의 환경에서의 음성 응용 프로그램에 대한 연구를 목표로 합니다. 오디오와 함께 비디오 모달리티를 통합하여 Audio-Visual Speaker Diarization (AVSD), Audio-Visual Speech Recognition (AVSR), Audio-Visual Diarization and Recognition (AVDR) 세 가지 과제를 다루었습니다. 본 논문에서는 챌린지의 목표, 과제, 데이터셋, 기준 시스템, 그리고 참가자들이 제안한 솔루션을 제시합니다. 최고 성능 시스템은 기준 시스템에 비해 상당한 성능 향상을 달성했습니다: 최고 AVSD 모델은 8.09%의 DER(Diarization Error Rate)을 달성하여 7.43% 향상되었고, 최고 AVSR 모델은 9.48%의 CER(Character Error Rate)을 달성하여 10.62% 향상되었으며, 최고 AVDR 모델은 11.56%의 cpCER(concatenated minimum-permutation Character Error Rate)을 달성하여 72.49% 향상되었습니다.