본 논문은 오디오-비주얼 분할(AVS)에서 데이터 부족 문제를 해결하기 위해, 사전 훈련된 Segment Anything Model (SAM)을 활용하여 오디오 정보를 활용하는 새로운 프레임워크인 AV2T-SAM을 제안합니다. 기존의 오디오를 활용한 SAM 개선 방법들이 시각적 모달리티 이해에 대한 부담을 줄이는 데 집중한 것과 달리, AV2T-SAM은 제한된 데이터로 오디오-비주얼 대응 관계 학습이라는 근본적인 문제에 초점을 맞춥니다. 이를 위해, 사전 훈련된 텍스트-이미지 페어 데이터셋에서 학습된 다모달 대응 관계를 활용하여 오디오-비주얼 정렬을 향상시키고, 오디오 및 비주얼 모달리티의 공유 의미를 강조하고 무관한 노이즈를 제거하는 새로운 특징 $\mathbf{\textit{\textbf{f}}{CLIP} \odot \textit{\textbf{f}}{CLAP}}$을 도입합니다. AVSBench 데이터셋에서 기존 방법들을 능가하는 성능을 보이며, 사전 훈련된 분할 모델과 교차 모달 의미 정렬을 효과적으로 활용합니다. 소스 코드는 공개되어 있습니다.