MGAudio는 모델 유도 이중 역할 정렬을 핵심 설계 원칙으로 도입한, 개방형 도메인 비디오-오디오 생성을 위한 새로운 흐름 기반 프레임워크입니다. 분류기 기반 또는 분류기 없는 안내에 의존하는 기존 접근 방식과 달리, MGAudio는 비디오 조건부 오디오 생성을 위해 설계된 전용 훈련 목표를 통해 생성 모델이 스스로 안내하도록 합니다. 이 프레임워크는 (1) 확장 가능한 흐름 기반 Transformer 모델, (2) 오디오-비주얼 인코더가 조건화 모듈이자 생성 품질을 향상시키는 특징 정렬자 역할을 하는 이중 역할 정렬 메커니즘, (3) 교차 모드 일관성과 오디오 현실성을 향상시키는 모델 유도 목표의 세 가지 주요 구성 요소를 통합합니다. MGAudio는 VGGSound에서 최첨단 성능을 달성하여 FAD를 0.40으로 줄이고, 최고의 분류기 없는 안내 기준선을 크게 능가하며, FD, IS 및 정렬 지표에서 기존 방법을 일관적으로 능가합니다. 또한 까다로운 UnAV-100 벤치마크에도 잘 적용됩니다.