가치 정렬된 언어 모델(LMs)은 명시적 편향 평가에서는 편향되지 않은 것처럼 보이지만, 암시적 단어 연상 과제에서는 종종 고정관념을 보여, 공정한 사용에 대한 우려를 제기합니다. 본 연구는 이러한 불일치의 메커니즘을 조사하여 정렬이 모델 출력에서 암시적 편향을 놀랍게도 증폭시킨다는 것을 발견했습니다. 특히, 정렬된 LMs는 정렬되지 않은 모델과 달리, 문맥이 모호할 때 초기 내부 표현에서 인종 개념을 간과합니다. 인종을 나타내지 않으면 안전 장치가 활성화되지 않아 의도치 않은 편향으로 이어집니다. 이러한 통찰력에 착안하여, 초기 모델 계층에서 인종 개념의 표현을 유도함으로써 작동하는 새로운 편향 완화 전략을 제안합니다. 기존의 기계 언러닝 완화 방법과 달리, 본 연구의 개입은 인종 개념에 대한 인식을 높이는 것이 암시적 편향을 효과적으로 완화한다는 것을 발견했습니다. 인간의 인종 무시와 유사하게, 인종적 뉘앙스를 무시하는 것은 LMs에서 미묘한 편향을 무심코 영속시킬 수 있습니다.