본 논문은 인기있는 대규모 언어 모델(LLM)에서 특정 유형의 성별 편향(엔트로피 편향)의 존재와 지속성을 조사합니다. 실제 세계 질문을 기반으로 구축된 새로운 벤치마크 데이터셋인 RealWorldQuestioning (HuggingFace에 공개)을 사용하여 교육, 직업, 개인 재정 관리, 일반 건강 등 비즈니스 및 건강 분야의 네 가지 주요 영역에서 실제 사용자가 질문한 질문들을 분석했습니다. 엔트로피 편향은 LLM이 남성과 여성의 질문에 대해 생성하는 정보량의 차이로 정의됩니다. ChatGPT-4를 "LLM-as-judge"로 사용하여 네 가지 LLM을 평가한 결과, 범주 수준에서는 유의미한 성별 편향이 없다는 것을 발견했습니다. 그러나 개별 질문 수준에서는 남성과 여성에 대한 LLM 응답에 상당한 차이가 있으며, 이러한 차이들은 서로 상쇄되는 경우가 많습니다. 본 논문은 성별에 따른 응답을 반복적으로 병합하여 최종 결과를 생성하는 간단한 편향 제거 방법을 제안합니다. 이 방법은 78%의 경우에서 성별에 따른 응답보다 정보량이 많은 응답을 생성하고, 나머지 경우에도 균형 잡힌 통합을 달성하는 것을 보여줍니다.