본 논문은 대규모 언어 모델(LLM)의 연역적 추론보다는 유도적 추론 능력, 특히 불완전한 증거로부터 일반적인 규칙을 도출하는 능력에 초점을 맞춥니다. LLM 정렬에서 중요한 과제인 개인화된 선호도 추론을 통해 LLM의 확장된 유도적 추론을 조사합니다. 사용자 선호도는 다양한 상호작용 형태에 암묵적으로 내포되어 있으므로, 산발적인 신호로부터 일관된 선호도 패턴을 종합하는 강력한 유도적 추론 능력이 필요합니다. 이를 위해, 사용자 상호작용 이력의 행동 신호로부터 체계적인 선호도 추론을 가능하게 하는 확장된 추론 체인을 활용하는 \textsc{AlignXplore} 모델을 제안합니다. 합성 데이터 기반의 콜드 스타트 학습과 후속 온라인 강화 학습을 결합하여 \textsc{AlignXplore}를 개발하였으며, 도메인 내 및 도메인 외 벤치마크에서 평균 11.05%의 성능 향상을 달성함을 실험을 통해 보여줍니다. 또한, 보상 모델링 전략의 체계적인 비교를 통해 선호도 추론 학습을 위한 모범 사례를 제시하고, 훈련 중 인간과 유사한 유도적 추론 패턴의 출현을 밝힙니다.