Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Equilibrium Dynamics and Mitigation of Gender Bias in Synthetically Generated Data

Created by
  • Haebom
Category
Empty

저자

Ashish Kattamuri, Arpita Vats, Harshwardhan Fartale, Rahul Raja, Akshata Kishore Moharir, Ishita Prasad

개요

대규모 언어 모델을 활용한 재귀적 프롬프팅은 확장 가능한 합성 데이터 세트 생성을 가능하게 하지만, 편향 증폭의 위험을 내포한다. 본 연구에서는 세 가지 보완적 평가 프레임워크(규칙 기반 패턴 매칭, 임베딩 기반 의미 유사성, 다운스트림 작업 성능)를 사용하여 세 개의 재귀적 텍스트 생성 세대에 걸쳐 성별 편향 역학을 조사한다. 세 가지 초기 편향 수준(0.1, 0.3, 0.6)과 네 가지 완화 전략에 대한 실험 결과, 단조로운 증폭이 아닌 평형 역학이 나타났다. 낮은 초기 편향은 모델의 내재적 편향 수준으로 증폭되고(+36%), 높은 초기 편향은 그 수준으로 감소했다(-26%). 완화 방법 중 성별을 바꾼 변형을 도입하는 대조 증강은 높은 임베딩 기반 편향 점수를 생성했음에도 불구하고 상당한 다운스트림 편향 감소를 달성했다 (낮은 초기 편향의 경우 98.8%, 평균 91%). 이 역설은 의미 유사성 메트릭이 행동적 공정성 결과와 다를 수 있음을 보여주며, 책임감 있는 합성 데이터 생성에 있어 다차원적 평가의 필요성을 강조한다.

시사점, 한계점

재귀적 프롬프팅은 초기 편향 수준에 따라 편향 증폭 또는 감소의 평형 역학을 보인다.
대조 증강은 임베딩 기반 편향 점수를 증가시키면서도 다운스트림 편향을 효과적으로 감소시킨다.
의미 유사성 메트릭은 행동적 공정성을 정확하게 반영하지 못할 수 있다.
책임감 있는 합성 데이터 생성을 위해서는 다차원적 평가가 필요하다.
본 연구는 세 가지 초기 편향 수준과 네 가지 완화 전략에 국한된다.
특정 언어 모델 및 데이터 세트에 대한 결과는 일반화될 수 없다.
👍