Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation

Created by
  • Haebom
Category
Empty

저자

Lina Conti, Dennis Fucci, Marco Gaido, Matteo Negri, Guillaume Wisniewski, Luisa Bentivogli

개요

본 논문은 텍스트와 달리 음성은 화자에 대한 정보를 전달하며, 이는 음성 번역(ST) 모델에서 성별 관련 편향을 야기할 수 있다는 점을 지적한다. 특히 성별이 문법적으로 다른 언어 간의 번역에서, 화자의 음성적 특징이 성별 할당에 영향을 미칠 수 있다. 본 연구는 ST 모델이 화자를 지칭하는 용어에 성별을 할당하는 메커니즘을 조사하고, 훈련 데이터 패턴, 내부 언어 모델(ILM) 편향, 음향 정보 간의 상호 작용을 분석한다. 세 개의 언어 쌍(en-es/fr/it)을 대상으로 한 연구에서, 모델이 훈련 데이터의 특정 용어 관련 성별 연관성을 단순히 복제하는 것이 아니라, 더 광범위한 남성 우세 패턴을 학습함을 발견했다. ILM은 강한 남성 편향을 보이지만, 모델은 음향 입력을 기반으로 이러한 선호도를 무시할 수 있었다. 스펙트로그램에 대한 대비 특징 기여 분석을 통해, 높은 성별 정확도를 가진 모델이 "1인칭 대명사"를 사용하여 성별이 있는 용어를 화자와 연결하고, 음높이에 집중된 것이 아닌 주파수 스펙트럼 전반에 걸쳐 분산된 성별 정보를 접근하는 메커니즘을 사용함을 밝혔다.

시사점, 한계점

ST 모델에서 성별 편향의 근본적인 원인을 밝히고, 모델이 성별을 결정하는 복잡한 메커니즘을 제시함.
음성 번역 모델의 성별 편향을 완화하기 위한 전략 개발에 기여할 수 있음.
ILM의 성별 편향이 모델의 출력에 영향을 미칠 수 있음을 보여줌.
모델이 음성 신호의 다양한 특징(음높이 뿐만 아니라)을 활용하여 성별을 결정할 수 있음을 입증함.
제한된 언어 쌍(en-es/fr/it)에 대한 연구이므로, 다른 언어 쌍에 대한 일반화는 추가 연구가 필요함.
특정 모델 아키텍처 및 훈련 데이터에 대한 결과이므로, 다른 모델과의 비교 연구가 필요함.
👍