본 논문은 텍스트와 달리 음성은 화자에 대한 정보를 전달하며, 이는 음성 번역(ST) 모델에서 성별 관련 편향을 야기할 수 있다는 점을 지적한다. 특히 성별이 문법적으로 다른 언어 간의 번역에서, 화자의 음성적 특징이 성별 할당에 영향을 미칠 수 있다. 본 연구는 ST 모델이 화자를 지칭하는 용어에 성별을 할당하는 메커니즘을 조사하고, 훈련 데이터 패턴, 내부 언어 모델(ILM) 편향, 음향 정보 간의 상호 작용을 분석한다. 세 개의 언어 쌍(en-es/fr/it)을 대상으로 한 연구에서, 모델이 훈련 데이터의 특정 용어 관련 성별 연관성을 단순히 복제하는 것이 아니라, 더 광범위한 남성 우세 패턴을 학습함을 발견했다. ILM은 강한 남성 편향을 보이지만, 모델은 음향 입력을 기반으로 이러한 선호도를 무시할 수 있었다. 스펙트로그램에 대한 대비 특징 기여 분석을 통해, 높은 성별 정확도를 가진 모델이 "1인칭 대명사"를 사용하여 성별이 있는 용어를 화자와 연결하고, 음높이에 집중된 것이 아닌 주파수 스펙트럼 전반에 걸쳐 분산된 성별 정보를 접근하는 메커니즘을 사용함을 밝혔다.