본 논문은 액션 품질 평가(AQA)에서 시각 정보만을 사용하는 기존 연구와 달리, 시각 정보(RGB, 광학 흐름)와 청각 정보를 함께 활용하여 평가 정확도를 높이는 방법을 제시합니다. 특히 배경 음악이 있는 피겨 스케이팅이나 리듬 체조와 같이 청각 정보가 중요한 스포츠에 효과적입니다. 이를 위해, 각 모달리티별 정보와 혼합 모달리티 정보를 개별적으로 모델링하는 Progressive Adaptive Multimodal Fusion Network (PAMFN)를 제안합니다. PAMFN은 세 가지 모달리티별 분기와 혼합 모달리티 분기로 구성되며, 모달리티별 특징 디코더, 적응적 융합 모듈, 교차 모달리티 특징 디코더라는 세 가지 새로운 모듈을 통해 모달리티 간 정보 융합을 효율적으로 수행합니다. 특히 적응적 융합 모듈은 액션의 다양한 부분에 대해 다른 융합 전략을 적용하여 최적의 결과를 얻도록 설계되었습니다.