단계별 설명은 논리 퍼즐 및 기타 만족 문제의 해결 과정을 단계별로 보여줌으로써 설명할 수 있습니다. 각 단계는 하나 이상의 결정 변수에 할당을 파생하는 제약 조건 집합으로 구성됩니다. 그러나 각 단계의 품질을 정량화하기 위해 사용자 정의 목표 함수가 필요하지만, 좋은 목표 함수를 정의하는 것은 어렵습니다. 본 연구에서는 사용자 선호도를 쌍별 비교를 통해 학습하기 위해 기계 학습 커뮤니티에서 개발된 대화형 선호도 도출 방법을 조사합니다. 특히, 여러 하위 목표를 사용하여 설명 품질을 측정하므로, 두 가지 동적 정규화 기술을 제안하여 이러한 특징을 재조정하고 학습 과정을 안정화합니다. 또한, 유사한 설명이 많은 비교를 포함한다는 점을 고려하여, 비지배 제약 조건을 상한 신뢰 구간 기반 다양화와 통합하는 새로운 쿼리 생성 전략인 MACHOP(Multi-Armed CHOice Perceptron)을 소개합니다. 인공 사용자를 사용하여 스도쿠와 논리 격자 퍼즐에 대한 도출 기술을 평가하고, 실제 사용자 평가를 통해 검증합니다. 두 설정 모두에서 MACHOP은 표준 접근 방식보다 일관되게 더 높은 품질의 설명을 생성합니다.