본 논문은 기존의 악센트 변환(AC) 연구가 원본 내용과 화자 정체성을 유지하면서 비원어민 발음을 원어민처럼 만드는 데 초점을 맞춘 것과 달리, 비원어민 화자의 발음 문제까지 개선하는 새로운 AC 접근법을 제시합니다. 비원어민 음성과 해당 텍스트를 입력으로 받아, 원본 지속 시간과 운율을 유지하면서 원어민 수준의 발음을 가진 이상적인 목표 음성을 생성합니다. 이 목표 데이터는 모델이 악센트 있는 음성과 원어민 음성 간의 직접적인 매핑을 학습하는 데 도움을 줍니다. 고품질 파형 재구성을 위해 end-to-end VITS 프레임워크를 사용하며, 평가 결과를 통해 원어민 악센트에 가까운 음성을 생성하면서 원본 화자의 정체성을 유지하고 발음까지 개선하는 것을 보여줍니다.