본 논문은 대규모 언어 모델(LLM)의 미세 조정 과정에서 안전성 저하 문제를 해결하기 위해 안전 인식 프로빙(SAP) 최적화 프레임워크를 제안합니다. 기존 연구에서 무해한 데이터로의 미세 조정조차도 LLM의 안전성을 저해할 수 있다는 점을 지적하며, SAP는 기울기 전파 과정에 안전 인식 프로브를 통합하여 기울기 방향의 잠재적 위험을 식별하고 완화함으로써 안전성을 유지하면서 작업별 성능을 향상시킵니다. 실험 결과, SAP는 미세 조정된 모델의 유해성을 감소시키면서 표준 미세 조정 방법과 비슷한 테스트 손실을 달성함을 보여줍니다.