Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook

Created by
  • Haebom

저자

Yingchao Li

개요

본 논문은 자연스러움, 얼굴 및 몸 표현의 제한, 사용자 제어 부재 등 기존의 엔드투엔드 수화 애니메이션 시스템의 한계를 극복하기 위해 인간 중심의 실시간 음성-수화 애니메이션 프레임워크를 제안한다. 이 프레임워크는 (1) 동기화된 상체 및 얼굴 움직임 생성을 위한 스트리밍 Conformer 인코더와 자기회귀 Transformer-MDN 디코더, (2) 청각장애 사용자와 전문가가 각 수화 부분을 검사하고 수정할 수 있는 투명하고 편집 가능한 JSON 중간 표현, (3) 사용자 편집 및 평가에 기반하여 모델을 개선하는 Human-in-the-loop 최적화 루프로 구성된다. Unity3D에 배포된 이 시스템은 RTX 4070에서 평균 13ms의 프레임 추론 시간과 103ms의 엔드투엔드 지연 시간을 달성한다. 핵심 기여는 세분화된 수화 수준의 개인화를 위한 JSON 중심 편집 메커니즘의 설계와 지속적인 모델 적응을 위한 MDN 기반 피드백 루프의 최초 적용이다. 20명의 청각장애 수화자와 5명의 전문 통역사를 대상으로 한 연구에서 기준선 대비 SUS 점수 13점 향상, 인지 부하 6.7점 감소, 자연스러움과 신뢰도의 상당한 향상(p<.001)을 관찰했다. 이 연구는 접근 가능한 수화 기술을 위한 확장 가능하고 설명 가능한 AI 패러다임을 확립한다.

시사점, 한계점

시사점:
실시간, 자연스러운 수화 애니메이션 생성을 위한 효율적인 프레임워크 제시.
JSON 기반 편집 메커니즘을 통한 사용자 맞춤형 및 설명 가능한 AI 시스템 구현.
MDN 기반 피드백 루프를 활용한 지속적인 모델 개선 및 사용자 참여.
청각장애인의 의사소통 접근성 향상 및 인지 부하 감소.
고속 처리 성능 (13ms 프레임 추론 시간, 103ms 엔드투엔드 지연 시간).
한계점:
현재 시스템은 상체와 얼굴 움직임에 집중, 하체 움직임은 고려되지 않음.
다양한 수화 언어 및 수화 스타일 지원 범위에 대한 추가 연구 필요.
대규모 데이터셋을 활용한 모델 학습 및 일반화 성능 향상 필요.
JSON 편집 메커니즘의 사용 편의성 개선 및 직관적인 인터페이스 개발 필요.
👍