Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do LLMs have a Gender (Entropy) Bias?

Created by
  • Haebom

저자

Sonal Prabhune, Balaji Padmanabhan, Kaushik Dutta

개요

본 논문은 인기있는 대규모 언어 모델(LLM)에서 특정 유형의 성별 편향(엔트로피 편향)의 존재와 지속성을 조사합니다. 실제 세계 질문을 기반으로 구축된 새로운 벤치마크 데이터셋인 RealWorldQuestioning (HuggingFace에 공개)을 사용하여 교육, 직업, 개인 재정 관리, 일반 건강 등 비즈니스 및 건강 분야의 네 가지 주요 영역에서 실제 사용자가 질문한 질문들을 분석했습니다. 엔트로피 편향은 LLM이 남성과 여성의 질문에 대해 생성하는 정보량의 차이로 정의됩니다. ChatGPT-4를 "LLM-as-judge"로 사용하여 네 가지 LLM을 평가한 결과, 범주 수준에서는 유의미한 성별 편향이 없다는 것을 발견했습니다. 그러나 개별 질문 수준에서는 남성과 여성에 대한 LLM 응답에 상당한 차이가 있으며, 이러한 차이들은 서로 상쇄되는 경우가 많습니다. 본 논문은 성별에 따른 응답을 반복적으로 병합하여 최종 결과를 생성하는 간단한 편향 제거 방법을 제안합니다. 이 방법은 78%의 경우에서 성별에 따른 응답보다 정보량이 많은 응답을 생성하고, 나머지 경우에도 균형 잡힌 통합을 달성하는 것을 보여줍니다.

시사점, 한계점

시사점:
실제 세계 질문 데이터셋을 활용하여 LLM의 성별 편향을 측정하고 분석하는 새로운 방법을 제시.
개별 질문 수준에서의 성별 편향의 존재를 밝히고, 이를 해결하기 위한 간단하고 효과적인 편향 제거 방법을 제안.
제안된 편향 제거 방법이 LLM 응답의 정보량을 향상시키는 것을 실험적으로 증명.
실제 사용자 질문에 대한 LLM의 응답에서 나타나는 성별 편향에 대한 중요한 시사점을 제공.
한계점:
ChatGPT-4를 "LLM-as-judge"로 사용했기에, ChatGPT-4 자체의 편향이 결과에 영향을 미칠 가능성 존재.
특정 영역(비즈니스 및 건강)의 질문에 국한되어 일반화 가능성에 대한 추가 연구 필요.
제안된 편향 제거 방법이 모든 유형의 성별 편향에 효과적일지는 추가 연구 필요.
데이터셋의 크기 및 다양성에 따라 결과가 달라질 수 있음.
👍