본 논문은 튀니지 아랍어-영어 음성 번역 데이터셋인 TEDxTN을 최초로 공개합니다. 튀니지 방언 데이터 희소성 문제를 해결하기 위한 노력의 일환으로, 108개의 TEDx 강연을 수집, 분할, 전사 및 번역했습니다. 이 데이터셋은 25시간 분량의 음성을 포함하며, 다양한 튀니지 지역 출신 화자들의 코드 스위칭을 담고 있습니다. 또한, 주석 지침과 함께 공개하여 TEDxTN의 확장을 용이하게 했습니다. 여러 사전 훈련된 엔드투엔드 모델을 사용한 음성 인식 및 음성 번역에 대한 강력한 기준 시스템 결과도 보고합니다. 이 데이터셋은 코드 스위칭 튀니지 방언에 대한 최초의 오픈 소스 음성 번역 데이터셋입니다.