본 논문은 대규모 언어 모델(LLM)의 특정 작업에 대한 미세 조정이 성능 향상에 기여하지만, 동시에 안전성을 저해하는 안전성-성능 상충 현상을 다룬다. 두 가지 주요 안전성 인식 LLM 미세 조정 전략에서 안전성과 성능 간의 상호 작용에 대한 이론적 틀을 제시하며, 데이터 유사성, 맥락 중복, 정렬 손실 지형의 영향에 대한 새로운 통찰력을 제공한다. 이론적 결과는 LLM 미세 조정에서 안전성-성능 상충의 근본적인 한계를 특징짓고, 수치 실험으로 검증한다.