본 논문은 저지연 통신 AI 음성 에이전트 파이프라인을 소개합니다. 실시간 양방향 통신을 위해 설계된 이 파이프라인은 콜센터 자동화, 지능형 IVR, AI 기반 고객 지원 등에 고급 음성 AI를 활용할 수 있도록 합니다. 네토AI가 개발한 네 가지 특수 모델(4비트 양자화된 통신 특화 대규모 언어 모델 TSLAM, 통신 특화 임베딩 모델 T-VEC, 통신 특화 자동 음성 인식 모델 TTE, 통신 특화 음성 합성 모델 T-Synth)을 통합하여 구축되었으며, 지식 기반 음성 상호 작용을 저지연으로 지원하는 높은 응답성의 도메인 적응형 음성 AI 에이전트를 가능하게 합니다. 스트리밍 ASR(TTE), 대화형 지능(TSLAM), 통신 문서에 대한 검색 증강 생성(RAG), 실시간 TTS(T-Synth)를 통합하여 통신 음성 비서에 대한 새로운 기준을 제시합니다. RFC에서 가져온 500개의 인간 녹음 통신 질문 데이터 세트를 사용하여 시스템을 평가하였으며, 지연 시간, 도메인 관련성 및 실시간 성능을 분석했습니다. 결과적으로 TSLAM, TTE 및 T-Synth는 1.0 미만의 실시간 계수(RTF)를 달성하여 기업용 저지연 통신 배포를 지원합니다.