# Fair Play for Individuals, Foul Play for Groups? Auditing Anonymization's Impact on ML Fairness

### 저자

Heber H. Arcolezi, Mina Alishahi, Adda-Akram Bendoukha, Nesrine Kaaniche

### 개요

본 논문은 머신러닝 알고리즘 학습에 사용되는 데이터의 민감한 정보로 인한 개인정보 침해 문제를 다룹니다.  $k$-anonymity, $\ell$-diversity, $t$-closeness 와 같은 익명화 기법이 개인 식별을 어렵게 하여 개인정보 보호 문제를 해결하는 실용적인 방법으로 제시되었지만, 이러한 기법들이 머신러닝의 공정성에 미치는 영향에 대한 연구는 부족합니다. 본 연구는 다양한 익명화 기법들이 개인 및 집단 공정성 지표에 미치는 영향을 정량적으로 분석합니다.  그 결과, 익명화는 집단 공정성 지표를 최대 4자릿수까지 저하시킬 수 있지만, 유사성 기반 개인 공정성 지표는 입력 데이터의 동질성 증가로 인해 개선되는 경향을 보이는 것을 밝혔습니다.  다양한 개인정보 설정 및 데이터 분포에 걸쳐 익명화 수준을 분석하여 개인정보 보호, 공정성, 유용성 간의 상충 관계에 대한 중요한 통찰력을 제공하고, 책임감 있는 AI 개발을 위한 실행 가능한 지침을 제시합니다.  코드는 공개적으로 제공됩니다.

### 시사점, 한계점

- **시사점:**

    - 익명화 기법이 머신러닝의 공정성에 미치는 영향을 정량적으로 분석하여, 개인정보 보호와 공정성 간의 상충 관계를 명확히 밝힘.

    - 익명화 강도에 따라 집단 공정성과 개인 공정성 지표가 상반된 결과를 보임을 확인.

    - 책임감 있는 AI 개발을 위한 익명화 기법 적용에 대한 실행 가능한 지침을 제공.

- **한계점:**

    - 특정 익명화 기법($k$-anonymity, $\ell$-diversity, $t$-closeness)에 국한된 분석으로, 다른 익명화 기법에 대한 연구 필요.

    - 분석에 사용된 데이터셋과 개인정보 설정의 다양성에 한계가 있을 수 있음.

    - 실제 적용 환경에서의 일반화 가능성에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2505.07985)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).