Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Knowledge Distillation for Device-Directed Speech Detection

Created by
  • Haebom

저자

Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz

개요

본 논문은 음성 어시스턴트(VA)에 대한 사용자의 질문을 배경 소음이나 옆 대화와 구분하는 이진 분류 작업인 기기 지향 음성 감지(DDSD)에 대해 다룹니다. 자연스러운 사용자 경험을 위해 효율적인 배포를 보장하면서 DDSD 정확도를 높이기 위해 지식 증류(KD)를 제안합니다. 특히, ASR 대규모 사전 훈련된 음향 인코더(교사)의 일반적인 표현으로부터 지식을 전달하는 새로운 적응형 KD 방법을 제시합니다. (고정된) 교사 인코더 위에 작업별 어댑터를 적용하여 DDSD에서 학생 모델과 함께 학습시킵니다. 제안된 적응형 KD는 키워드 및 키워드 없는(후속) 호출에서 증류 없이 학생 모델보다 성능이 우수하며, 동일 오류율(EER) 측면에서 각각 +26%와 +19% 향상됨을 보여줍니다. 또한, 이 방법이 Transformer와 Conformer 기반 모델 아키텍처에서 일반화됨을 보여줍니다.

시사점, 한계점

시사점:
지식 증류를 활용하여 기기 지향 음성 감지(DDSD)의 정확도를 효율적으로 향상시킬 수 있음을 보여줍니다.
적응형 지식 증류 방법을 통해 Transformer와 Conformer 기반 모델 아키텍처 모두에서 성능 향상을 달성합니다.
키워드 기반 및 키워드 없는 호출 모두에서 상당한 성능 향상(EER 기준 +19%~+26%)을 기록합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 평가가 필요합니다. 다양한 음향 환경 및 사용자 특성에 대한 로버스트니스를 추가적으로 검증해야 합니다.
사용된 사전 훈련된 음향 인코더의 특징에 대한 의존성이 존재할 수 있습니다. 다른 사전 훈련된 모델에 대한 성능 비교 분석이 부족합니다.
실제 환경에서의 성능 평가가 제한적일 수 있습니다. 실제 사용자 데이터를 활용한 더욱 광범위한 실험이 필요합니다.
👍