본 논문은 오픈 보카불러리 키워드 발견(KWS)에서 텍스트 기반 등록을 위해 음향 및 텍스트 임베딩을 음소 또는 발화 수준에서 비교하는 기존 방식을 개선합니다. 심층 메트릭 학습(DML)을 사용하여 음향 및 텍스트 인코더를 최적화하여 공유 임베딩 공간에서 다중 모달 임베딩을 직접 비교할 수 있도록 합니다. 하지만 음향 및 텍스트 모달리티 간의 이질성 문제를 해결하기 위해 모달리티 적대적 학습(MAL)을 제안합니다. MAL은 모달리티 분류기를 적대적으로 학습시켜 두 인코더가 모달리티 불변 임베딩을 생성하도록 유도합니다. 또한 DML을 적용하여 음향 및 텍스트 간의 음소 수준 정렬을 달성하고 다양한 DML 목표에 대한 광범위한 비교를 수행합니다. Wall Street Journal (WSJ) 및 LibriPhrase 데이터셋에 대한 실험을 통해 제안된 방법의 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
음향 및 텍스트 모달리티 간의 이질성 문제를 해결하는 효과적인 방법인 모달리티 적대적 학습(MAL) 제시.