가치 정렬된 언어 모델(LMs)은 명시적 편향 평가에서는 편향되지 않은 것처럼 보이지만, 암시적 단어 연상 작업에서는 종종 고정관념을 보이는데, 이는 공정한 사용에 대한 우려를 제기합니다. 본 연구는 이러한 불일치의 메커니즘을 조사하여 정렬이 모델 출력에서 암시적 편향을 놀랍게도 증폭시킨다는 것을 발견했습니다. 특히, 정렬된 LMs는 정렬되지 않은 모델과 달리, 맥락이 모호할 때 초기 내부 표현에서 인종 개념을 간과합니다. 인종을 나타내지 않으면 안전 장치가 활성화되지 않아 의도하지 않은 편향이 발생할 수 있습니다. 이러한 통찰력에 착안하여, 초기 모델 레이어에서 인종 개념의 표현을 유도함으로써 작동하는 새로운 편향 완화 전략을 제안합니다. 기존의 머신 언러닝 완화 방법과 달리, 본 연구의 개입은 인종 개념에 대한 인식을 높이는 것이 암시적 편향을 효과적으로 완화한다는 것을 발견했습니다. 인간의 인종 무시와 마찬가지로, 인종적 뉘앙스를 무시하면 LMs에서 미묘한 편향이 의도치 않게 지속될 수 있습니다.