본 논문은 대규모 언어 모델(LLM)의 연역적 추론 능력이 아닌 귀납적 추론 능력, 특히 사용자의 선호도 추론에 대한 연구를 다룬다. LLM의 정렬(alignment) 과제에서 사용자의 다양한 선호도를 포착하는 것은 어려운 문제이며, 이는 사용자 선호도가 다양한 상호작용 형태에 암묵적으로 포함되어 있기 때문이다. 본 논문은 확장된 추론 체인을 활용하여 사용자 상호작용 이력의 행동 신호로부터 체계적인 선호도 추론을 가능하게 하는 AlignXplore 모델을 제안한다. AlignXplore는 합성 데이터 기반의 콜드 스타트 학습과 온라인 강화 학습을 결합하여 개발되었으며, 기존 모델 대비 평균 15.49%의 성능 향상을 보였다. 또한, 보상 모델링 전략의 체계적인 비교를 통해 선호도 추론 학습에 대한 최적 사례를 제시하고, 훈련 과정에서 인간과 유사한 귀납적 추론 패턴의 출현을 밝혀냈다.