본 논문에서는 인간의 청각 인지에서 영감을 얻은 휴리스틱 최적화 반복 수정 프레임워크인 LIR-ASR을 제안합니다. LIR-ASR은 "듣기-상상하기-세련되게 하기" 전략을 적용하여 음성 변형을 생성하고 문맥상에서 이를 개선합니다. 국소적 최적점에 빠지는 것을 방지하기 위해 유한 상태 기계(FSM)를 사용한 휴리스틱 최적화가 도입되었고, 규칙 기반 제약 조건은 의미적 충실도를 유지하는 데 도움이 됩니다. 영어와 중국어 ASR 출력에 대한 실험 결과, LIR-ASR은 기준선과 비교하여 CER/WER을 최대 1.5% 감소시켜 전사 정확도가 크게 향상됨을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델(LLM)을 활용하여 ASR 오류 수정의 정확도를 향상시킬 수 있음을 보여줍니다.
◦
인간의 청각 인지 과정을 모방한 새로운 ASR 오류 수정 프레임워크를 제시합니다.
◦
영어와 중국어 모두에서 유의미한 성능 향상을 달성하여 언어 독립적인 성능을 시사합니다.
◦
휴리스틱 최적화와 규칙 기반 제약 조건을 통해 수정 과정의 효율성과 신뢰성을 높였습니다.
•
한계점:
◦
제안된 방법의 성능 향상이 1.5%p로 상대적으로 제한적일 수 있습니다.
◦
휴리스틱 최적화와 규칙 기반 제약 조건의 일반화 가능성에 대한 추가적인 연구가 필요합니다.