# Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation

### 저자

Lina Conti, Dennis Fucci, Marco Gaido, Matteo Negri, Guillaume Wisniewski, Luisa Bentivogli

### 💡 개요

본 연구는 음성 번역(Speech Translation, ST) 모델에서 화자의 음성적 특징이 성별 할당에 미치는 영향을 조사합니다. 특히, 영어와 같이 표기가 성별을 구분하지 않는 언어에서 문법적으로 성별을 가지는 언어로 번역될 때, ST 모델이 음성 정보를 어떻게 활용하여 화자를 지칭하는 용어에 성별을 할당하는지 분석합니다. 연구 결과, 모델은 훈련 데이터의 성별 연관성을 단순히 모방하는 것이 아니라, 음성 정보와 내부 언어 모델의 편향이 상호작용하여 성별 할당이 이루어지며, 정확도가 높은 모델은 주파수 스펙트럼 전반에 걸쳐 분포된 음성 정보를 활용하는 새로운 메커니즘을 사용함을 밝혔습니다.

### 🔑 시사점 및 한계

- 음성 번역 모델은 훈련 데이터의 성별 편향을 답습하는 것을 넘어, 음성적 특징과 내부 언어 모델의 상호작용을 통해 성별 할당을 결정합니다.

- 높은 성별 정확도를 보이는 모델은 단순히 음성의 높낮이(pitch)에 의존하는 것이 아니라, 1인칭 대명사를 통해 화자와 성별이 할당된 용어를 연결하며 주파수 스펙트럼 전반의 음성 정보를 활용합니다.

- 본 연구는 특정 언어 쌍(en-es/fr/it)에 국한되어 있으며, 다양한 음성적 특징 및 언어적 맥락에서의 성별 할당 메커니즘에 대한 추가적인 탐구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2511.21517)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).