Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS

Created by
  • Haebom
Category
Empty

저자

Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay

개요

본 논문은 저지연 통신 AI 음성 에이전트 파이프라인을 소개합니다. 실시간 양방향 통신을 위해 설계된 이 파이프라인은 콜센터 자동화, 지능형 IVR, AI 기반 고객 지원 등에 고급 음성 AI를 활용할 수 있도록 합니다. 네토AI가 개발한 네 가지 특수 모델(4비트 양자화된 통신 특화 대규모 언어 모델 TSLAM, 통신 특화 임베딩 모델 T-VEC, 통신 특화 자동 음성 인식 모델 TTE, 통신 특화 음성 합성 모델 T-Synth)을 통합하여 구축되었으며, 지식 기반 음성 상호 작용을 저지연으로 지원하는 높은 응답성의 도메인 적응형 음성 AI 에이전트를 가능하게 합니다. 스트리밍 ASR(TTE), 대화형 지능(TSLAM), 통신 문서에 대한 검색 증강 생성(RAG), 실시간 TTS(T-Synth)를 통합하여 통신 음성 비서에 대한 새로운 기준을 제시합니다. RFC에서 가져온 500개의 인간 녹음 통신 질문 데이터 세트를 사용하여 시스템을 평가하였으며, 지연 시간, 도메인 관련성 및 실시간 성능을 분석했습니다. 결과적으로 TSLAM, TTE 및 T-Synth는 1.0 미만의 실시간 계수(RTF)를 달성하여 기업용 저지연 통신 배포를 지원합니다.

시사점, 한계점

시사점:
저지연 실시간 통신을 위한 고성능 AI 음성 에이전트 파이프라인 제시
콜센터 자동화, 지능형 IVR, AI 기반 고객 지원 등 다양한 통신 분야에 적용 가능성 제시
4비트 양자화를 통한 효율적인 모델 구현 및 저지연 성능 달성
실시간 ASR, 대화형 지능, RAG, TTS 통합을 통한 종합적인 시스템 구축
실제 통신 질문 데이터셋을 활용한 객관적인 성능 평가
차세대 통신 AI 기반의 자동화된 고객 지원 및 진단 시스템 구축 가능성 제시
한계점:
평가에 사용된 데이터셋의 규모(500개)가 상대적으로 작을 수 있음.
특정 통신 도메인에 특화된 모델이므로 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
실제 운영 환경에서의 장기간 안정성 및 확장성에 대한 검증 필요.
T-VEC 모델에 대한 자세한 설명 및 평가 부족.
👍