본 논문은 사전 훈련된 언어 모델(PLM)의 성차별 문제를 정보이론적 접근 방식을 통해 분석합니다. 다양한 인코더 기반 아키텍처에서 성별 정보와 편향이 어떻게 인코딩되는지, 편향 완화 기법과 미세 조정이 인코딩된 편향과 그 효과에 어떤 영향을 미치는지, 그리고 모델 설계 차이가 편향 인코딩에 어떻게 영향을 미치는지 세 가지 핵심 측면에 초점을 맞춥니다. 다양한 모델에서 일관된 성별 인코딩 패턴을 발견하였고, 놀랍게도 편향 완화 기법은 효과가 제한적이며, 때로는 출력 분포의 편향을 줄이면서 내부 표현의 인코딩된 편향을 증가시키기도 함을 밝혔습니다. 이는 출력 분포의 편향 완화와 내부 표현의 편향 해결 사이의 불일치를 강조합니다. 본 연구는 더욱 공정한 언어 모델 개발을 위한 편향 완화 전략 개선에 대한 귀중한 지침을 제공합니다.