본 논문은 비디오로부터 직접 양이(binaural) 공간 오디오를 생성하는 end-to-end 방식을 제시합니다. 기존의 단일 채널 오디오 생성 후 공간화하는 방식의 한계를 극복하기 위해, 새로운 BiAudio 데이터셋과 ViSAudio 프레임워크를 제안합니다. ViSAudio는 조건부 흐름 매칭과 듀얼 브랜치 오디오 생성 아키텍처를 활용하여 시공간적 정합성을 유지하면서 고품질의 양이 오디오를 생성하며, 뷰포인트 변화, 음원 이동, 다양한 음향 환경에 효과적으로 적응합니다.