본 논문은 대규모 언어 모델(LLM)의 인간 선호도 정렬을 위한 프라이버시 보존 알고리즘을 제안합니다. 기존의 차등적 프라이버시(DP) 기반 정렬 기법의 성능 한계를 극복하기 위해, 직접 선호도 최적화(DPO)와 인간 피드백 강화 학습(RLHF)에 적용 가능한 새로운 알고리즘을 제시합니다. 대규모 언어 모델을 이용한 실험을 통해, 제안된 방법이 최첨단 성능을 달성함을 보여주며, 특히 DP-AdamW 알고리즘과 DPO의 조합이 중간 수준의 프라이버시 예산(ε=2-5) 하에서 최대 15%의 정렬 품질 향상을 달성합니다. 또한 프라이버시 보장, 정렬 효과, 계산 비용 간의 상호 작용을 분석하여 실질적인 최적화 지침을 제공합니다.