본 논문은 대규모 언어 모델(LLM)의 편향 완화를 위한 새로운 접근법으로, 순전파 과정에서 모델 활성화를 수정하기 위해 조향 벡터를 적용하는 방법을 제시한다. 9가지 편향 축에 걸쳐 효과적인 대조쌍 데이터셋을 체계적으로 식별하기 위해 베이지안 최적화를 사용한다. BBQ 데이터셋에서 최적화되었을 때, 개별적으로 조정된 조향 벡터는 Mistral, Llama, Qwen에 대해 기준선 대비 평균 12.2%, 4.7%, 3.2%의 성능 향상을 달성한다. 이러한 유망한 결과를 바탕으로, 본 논문은 각각 연령, 인종 또는 성별과 같은 특정 편향 축을 목표로 하는 여러 개별 최적화된 조향 벡터를 평균하는 방법인 조향 벡터 앙상블(SVE)을 소개한다. SVE는 그들의 집합적 강점을 활용하여 편향 감소와 모델 성능 유지 모두에서 개별 조향 벡터보다 우수한 성능을 보인다. 본 연구는 편향 완화를 위한 조향 벡터에 대한 최초의 체계적인 조사를 제시하며, SVE가 LLM의 편향을 줄이는 강력하고 계산적으로 효율적인 전략임을 보여주며, AI 안전성 향상에 대한 광범위한 시사점을 제공한다.