본 논문은 대규모 언어 모델(LLM)의 편향 완화를 위한 새로운 접근 방식으로, 순전파에서 모델 활성화를 수정하기 위해 조향 벡터(steering vectors)를 적용하는 방법을 제시한다. 연구진은 BBQ 데이터셋의 학습 하위 집합에서 나이, 성별, 인종과 같은 서로 다른 사회적 편향 축에 각각 대응하는 8개의 조향 벡터를 계산하고, 4개의 데이터셋에서 3가지 추가적인 편향 완화 방법과 그 효과를 비교했다. BBQ 데이터셋에서 최적화된 개별 조정 조향 벡터는 BBQ에서 평균 12.8%, CLEAR-Bias에서 8.3%, StereoSet에서 1% 향상을 달성했으며, 모든 경우에 프롬프팅 및 Self-Debias보다 향상되었고, 17개 평가 중 12개에서 미세 조정보다 향상을 보였다. 또한, 조향 벡터는 테스트된 네 가지 편향 완화 방법 중 MMLU 점수에 대한 영향이 가장 적었다. 본 연구는 편향 완화를 위한 조향 벡터에 대한 최초의 체계적인 조사를 제시하며, 조향 벡터가 계산적으로 효율적인 강력한 전략임을 보여주고, AI 안전성 향상에 대한 광범위한 시사점을 제공한다.