Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025

Created by
  • Haebom

저자

Sai Koneru, Maike Zufle, Thai-Binh Nguyen, Seymanur Akti, Jan Niehues, Alexander Waibel

개요

본 논문은 IWSLT 워크샵의 범위가 기존의 음성 번역(ST)을 넘어 음성 질의응답 및 요약과 같은 다양한 작업으로 확장됨에 따라, Karlsruhe Institute of Technology(KIT)에서 제출한 Offline ST 및 Instruction Following(IF) 트랙에 대한 결과를 제시한다. Offline ST 트랙에서는 여러 자동 음성 인식 시스템의 출력을 문서 수준의 맥락을 사용하는 LLM을 통해 융합하고, 추가적인 개선 단계를 포함하는 2단계 번역 프로세스를 제안한다. IF 트랙에서는 음성 인코더와 LLM을 통합한 end-to-end 모델을 개발하여 다양한 지시사항 따르기 작업을 수행하고, 마지막 문서 수준의 개선 단계를 통해 출력 품질을 향상시킨다. LLM을 활용하여 모든 작업에서 성능을 향상시키는 데 중점을 둔다.

시사점, 한계점

시사점:
LLM을 활용한 다양한 음성 처리 작업(음성 번역, 지시사항 따르기)에서의 성능 향상 가능성을 보여준다.
Offline ST에서 다중 ASR 시스템의 출력 융합 및 2단계 번역 프로세스의 효과를 제시한다.
IF 트랙에서 end-to-end 모델과 문서 수준 개선 단계의 효용성을 확인한다.
LLM 기반 시스템의 문서 수준 맥락 활용의 중요성을 강조한다.
한계점:
특정 시스템(LLM)에 대한 의존도가 높을 수 있다.
제안된 방법의 일반화 성능에 대한 추가적인 검증이 필요하다.
구체적인 성능 수치 및 비교 대상 모델에 대한 정보가 부족하다.
LLM 사용으로 인한 연산 비용 및 자원 소모에 대한 고려가 필요하다.
👍