본 논문은 수학 교육과 같은 분야에서 다지선다형 문제(MCQ)의 오답지를 생성하는 데 점점 더 많이 사용되는 대규모 언어 모델(LLM)의 한계를 다룹니다. 기존 방법들은 생성된 오답지가 흔한 학생들의 오류와 일치하도록 하는 데 제한적이라는 점을 지적하며, 오류-오답지 일관성을 선호도 최적화를 통해 개선하는 LookAlike라는 새로운 방법을 제안합니다. LookAlike의 핵심 혁신은 (a) 모델의 불일치성으로부터 합성 선호도 쌍을 추출하고, (b) 감독 학습 미세 조정(SFT)과 직접 선호도 최적화(DPO)를 번갈아 사용하여 훈련을 안정화하는 것입니다. 휴리스틱 또는 수동으로 주석이 달린 선호도 데이터에 의존하는 이전 연구와 달리, LookAlike는 자체 생성 불일치를 비선호 샘플로 사용하여 확장 가능하고 안정적인 훈련을 가능하게 합니다. 1,400개 이상의 실제 수학 MCQ 데이터셋에서 평가한 결과, LookAlike는 LLM 기반 평가에서 오답지 생성 정확도 51.6%, 오류 생성 정확도 57.2%를 달성하여 기존 최첨단 방법(45.6% / 47.7%)을 능가했습니다. 이러한 개선은 대규모로 일관된 수학 MCQ 오답지를 생성하기 위한 선호도 기반 규제 및 불일치성 추출의 효과를 강조합니다.