[논문 리뷰] Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering
이번에 소개드릴 내용은 정답 라벨링이 되지 않은 음성 데이터 (unlabeled speech data)를 인위적으로 라벨링 및 필터링 하는 방법을 공유하고자 합니다. 공유 내용은 "Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering" 논문입니다. 인공지능에서는 데이터에 레이블이 필수적인데요. 레이블 작업은 많은 비용을 유발합니다. 예를 들어 100시간에 음성 데이터를 레이블 하면 대략 3천만원 정도가 필요합니다. 레이블 작업을 줄이기 위한 연구가 Pseudo-Labels(의사레이블, 가짜레이블)입니다. 제가 소개할 논문은 Pseudo-Labels과 Pseudo-Labels을 통해 얻은 데이터를 필터링 하는 논문입니다. 연구 배경 및 문제 정의 최신 ASR 모델(Whisper, Conformer, Zipformer 등)은 대규모 데이터로 학습되어 일반적인 성능은 우수하나, 도메인 특화(domain-specific) 상황에서는 성능 저하가 발생. 실제 산업 환경(콜센터, 의료, 보험 등)에서는 라벨링 비용이 높아 소량의 정답 데이터만 확보 가능하고, 수천 시간 규모의 비라벨 데이터는 활용하기 어려움. 따라서, 효율적인 데이터 선택 전략을 통해 고품질의 학습용 오디오 세그먼트를 얻고, 얻은 데이터로 도메인 특화 ASR모델을 만드는 연구 제안 방법 WER 기반 선택 - WER 예측 연구에서 영감을 받아, SVM(Support Vector Machine) 분류기를 훈련하여 음성 세그먼트를 low-WER 클래스와 high-WER 클래스로 분류합니다. 직접적인 WER 예측 대신 high-WER 세그먼트를 필터링하여 고품질 데이터를 우선합니다. low-WER 기준은 WER ≤ 50%로 정의됩니다. CER 기반 선택 - 레이블링되지 않은 음성 코퍼스는 Whisper Medium, Zipformer, Nemo Parakeet 세 가지 ASR 모델을 사용하여 전사됩니다. 각 세그먼트에 대해 모든 모델 간의 CER이 계산되며, 평균 CER이 선택 기준으로 사용됩니다. 평균 CER이 미리 정의된 임계값 5%미만인 세그먼트만 파인튜닝에 사용됩니다. NER-Based Selection - BERT에서 증류된(distilled) 경량 NER 모델을 사용하여 개체명(named entities)을 포함하는 세그먼트를 식별합니다. 데이터 선택은 두 단계로 이루어집니다: 먼저 NER 모델을 사용하여 개체를 포함하는 모든 세그먼트를 식별한 다음, 랜덤, 고신뢰도 샘플링, 개체 분포 균형 유지 샘플링 등을 사용하여 샘플링. (Random sampling, High Confidence NER score based sampling, Entity Class Distribution-based Random Sampling, Entity Class Distribution-based High Confidence Sampling방식은 논문 참고)
- 박희용박


2