Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

Created by
  • Haebom

저자

Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong

개요

본 논문은 소셜 미디어 콘텐츠 제작자들을 위한 간편한 TTS(Text-to-Speech) 시스템인 SpeakEasy를 제안한다. 기존 TTS 시스템의 복잡하고 세세한 인터페이스에 대한 어려움을 해결하기 위해, 사용자가 스크립트와 함께 상황 정보(high-level context)를 입력하면 이를 바탕으로 TTS 출력을 생성하고 반복적인 수정을 가능하게 하는 Wizard-of-Oz 시스템을 개발했다. 두 번의 사용자 연구(8명씩)를 통해 콘텐츠 제작자의 TTS 사용 경험과 성우들의 효과적인 전략을 분석하여 시스템 설계에 반영하였다. 평가 결과, SpeakEasy를 사용한 참가자들은 기존 시스템보다 더욱 만족스러운 결과물을 얻었으며, 작업 시간 또한 크게 증가하지 않았다.

시사점, 한계점

시사점:
고품질 TTS 생성을 위한 사용자 친화적인 인터페이스 제공.
상황 정보 활용을 통한 TTS 출력의 정확성 및 자연스러움 향상.
콘텐츠 제작자의 시간 및 노력 절감.
Wizard-of-Oz 시스템을 통한 사용자 피드백 반영 및 시스템 개선 가능성 제시.
한계점:
Wizard-of-Oz 시스템 기반으로 실제 시스템 구현 및 확장성에 대한 검증 필요.
참가자 수가 제한적(각 연구 8명)이므로 일반화에 대한 추가 연구 필요.
사용자 제공 상황 정보의 질에 따라 성능 차이 발생 가능성.
특정 언어 및 억양에 대한 편향성 존재 가능성.
👍