본 논문은 대규모 언어 모델(LLM) 기반의 움직임 생성 모델에서 토큰 예측 목표와 인간의 선호도 간의 차이를 해결하는 새로운 방법을 제시합니다. 기존의 사후 학습 선호도 정렬 방법은 많은 양의 인간 주석이 필요하지만, 본 연구는 사전 학습 데모에 내재된 암묵적 선호도를 활용하여 인간의 개입 없이 선호도 순위를 구성합니다. 이를 통해 사전 학습된 모델의 생성 동작의 현실성을 향상시키고, 추가적인 인간 주석이나 높은 계산 비용 없이 대규모 모방 기반 모델과 비교할 만한 성능을 달성합니다. 특히 대규모 교통 시뮬레이션에 적용하여 효과를 검증했습니다.