본 논문은 딥페이크 탐지 분야에서 모달 간 불균형 학습 문제를 해결하기 위해 오디오-비주얼 조인트 러닝 방법(MACB-DF)을 제안합니다. MACB-DF는 대조 학습을 활용하여 다단계 및 교차 모달 융합을 개선함으로써 각 모달의 정보를 균형 있게 활용합니다. 또한, 직교화-다중 모달 파레토 모듈을 설계하여 단일 모달 정보를 보존하면서 오디오-비디오 인코더의 기울기 충돌 문제를 해결합니다. 다양한 딥페이크 데이터셋에서 실험 결과, 제안된 방법은 평균 95.5%의 정확도를 달성하며 기존 최고 성능 모델 대비 우수한 성능과 교차 데이터셋 일반화 성능을 보여줍니다.