본 논문은 대규모 언어 모델(LLM)의 다양한 애플리케이션에 대한 빠른 적응 및 최적화의 어려움을 해결하기 위해 잔차 정렬 모델(RAM)을 제안합니다. RAM은 정렬 과정을 중요도 샘플링으로 공식화하여, 기존의 재훈련 기반 방법의 한계를 극복합니다. 기존 모델을 제안 분포로, 자동 회귀 정렬 모듈을 중요도 가중치 추정기로 활용하여 정렬 모듈과 대상 모델을 분리하여 유연성과 확장성을 향상시킵니다. 효율적인 시퀀스 수준 훈련 전략과 반복적인 토큰 수준 디코딩을 통한 리샘플링 알고리즘을 개발하여 첫 토큰 지연 문제를 해결합니다. 다양한 작업(지시 따르기, 도메인 적응, 선호도 최적화)에 대한 실험 결과, 제안된 방법이 기존 모델들을 능가함을 보여줍니다.