MultiActor-Audiobook은 일관되고 표현력이 풍부하며 화자에 적합한 운율(억양과 감정 포함)을 자동으로 생성하는 제로샷 오디오북 생성 방식입니다. 기존 오디오북 시스템은 화자의 운율을 수동으로 구성해야 하거나, 성우와 비교하여 단조로운 어조로 각 문장을 읽거나, 비용이 많이 드는 훈련에 의존하는 등 여러 가지 한계점을 가지고 있습니다. MultiActor-Audiobook은 다중 모달 화자 페르소나 생성(MSP) 및 **LLM 기반 스크립트 지시 생성(LSI)**이라는 두 가지 새로운 프로세스를 통해 이러한 문제를 해결합니다. MSP와 LSI를 통해 추가적인 훈련 없이도 감정 표현이 풍부하고 일관된 화자 운율을 가진 오디오북을 생성할 수 있습니다. 인간 및 MLLM 평가를 통해 상용 제품과 비교하여 경쟁력 있는 결과를 달성했으며, ablation study를 통해 MSP와 LSI의 효과를 보여줍니다.