본 논문은 언어 모델 정렬에서 표현 공학의 효과와 한계를 이론적 및 실험적으로 분석합니다. 표현 공학은 사후 훈련된 모델의 표현을 변경하여 모델의 행동을 수정하는 기법으로, 적대적 공격에 대한 저항성 향상 및 사회적 편향 감소와 같은 정렬 관련 작업에서 효과를 보입니다. 하지만 기본적인 작업 수행 능력 저하라는 단점도 존재합니다. 본 연구는 정렬 향상과 유용성 저하 사이의 상충 관계를 이론적 틀을 통해 규명하고, 정렬 향상은 선형적으로, 유용성 저하는 이차적으로 표현 공학 벡터의 놈에 비례한다는 것을 실험적으로 보여줍니다. 이는 표현 공학의 효율적인 사용 범위를 제시합니다.