CleanS2S: Single-file Framework for Proactive Speech-to-Speech Interaction
Created by
Haebom
저자
Yudong Lu, Yazhe Niu, Shuai Hu, Haolin Wang
개요
CleanS2S는 단일 파일 구현과 사전 대화 기능을 통해 대화형 AI를 발전시키는 인간과 유사한 음성-음성 상호 작용을 위한 프레임워크입니다. 자동 음성 인식, 대규모 언어 모델, 음성 합성을 실시간 중단 처리 기능을 갖춘 통합 파이프라인으로 통합하여 전이중 웹소켓 연결과 비차단 I/O를 통해 낮은 전이 지연 시간을 달성합니다. 기존 챗봇 패러다임을 넘어, 메모리 시스템과 주관적 행동 판단 모듈을 결합한 사전 대화 상호 작용 메커니즘을 개척하여 중단, 거절, 회피, 침묵, 표준 응답 등 다섯 가지 인간과 유사한 응답 전략을 가능하게 합니다. 메모리 모듈은 상호 작용 결정을 알리기 위해 역사적 및 상황 데이터를 동적으로 집계합니다. 이러한 접근 방식은 시스템이 시작한 대화 제어와 상황 인식 응답 선택을 허용하여 엄격한 턴 기반 관례를 깨뜨립니다. 또한 입력 스트림을 응답 전략에 대해 평가하는 행동 판단 SFT를 제안합니다. 원자 구성을 사용한 단일 파일 구현은 연구자에게 상호 작용 에이전트에 대한 전례 없는 투명성과 확장성을 제공합니다. CleanS2S 코드는 \https://github.com/opendilab/CleanS2S 에서 공개됩니다.