본 논문은 오픈 보카불러리 키워드 발견(KWS)에서 텍스트 기반 등록을 위해 음향 및 텍스트 임베딩을 음소 또는 발화 수준에서 비교하는 기존 방식을 개선합니다. 음향 및 텍스트 인코더를 심층 메트릭 학습(DML)을 사용하여 최적화하여 공유 임베딩 공간에서 다중 모달 임베딩을 직접 비교할 수 있도록 합니다. 하지만 음향 및 텍스트 모달리티 간의 이질성 문제를 해결하기 위해 모달리티 적대적 학습(MAL)을 제안합니다. MAL은 모달리티 분류기를 적대적으로 학습시켜 두 인코더가 모달리티 불변 임베딩을 생성하도록 유도합니다. 또한 DML을 적용하여 음향 및 텍스트 간의 음소 수준 정렬을 달성하고 다양한 DML 목표에 대한 종합적인 비교를 수행합니다. Wall Street Journal (WSJ) 및 LibriPhrase 데이터셋 실험을 통해 제안된 방법의 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
음향 및 텍스트 모달리티 간의 이질성 문제를 해결하는 효과적인 방법인 모달리티 적대적 학습(MAL)을 제시합니다.
◦
심층 메트릭 학습(DML)을 이용하여 음소 수준의 정확한 음향-텍스트 정렬을 가능하게 합니다.
◦
WSJ 및 LibriPhrase 데이터셋에서 제안된 방법의 우수한 성능을 실험적으로 검증합니다.
◦
오픈 보카불러리 키워드 발견(KWS)에서 텍스트 기반 등록 성능 향상에 기여합니다.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. (다양한 데이터셋 및 언어에 대한 실험 결과가 제한적일 수 있습니다.)
◦
MAL의 하이퍼파라미터 최적화에 대한 상세한 논의가 부족할 수 있습니다.
◦
특정 DML 목표 함수의 선택에 따른 성능 변화에 대한 심층적인 분석이 필요할 수 있습니다.