본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 문제에서, 인간의 주관적인 판단이 필요한 경우 LLM의 신뢰도가 떨어진다는 점에 주목했습니다. 특히, 인간의 판단 뒤에 숨겨진 추론 과정인 "사고 흔적(thinking traces)"을 수집하고 활용하는 것이 중요하지만, 이는 어렵다는 점을 지적합니다. 이에 본 논문은 레이블 데이터만으로 사고 흔적을 추론하는 인간-LLM 협업 프레임워크를 제시합니다. 제안된 프레임워크는 거부 샘플링 방법을 사용하여 대규모로 이러한 흔적을 재구성합니다. 추론된 사고 흔적은 두 가지 보완적인 작업에 적용됩니다: (1) 공개 LLM 평가자 미세 조정; (2) 독점 LLM 평가자를 위한 더 명확한 주석 가이드라인 합성. 여러 데이터셋에서 제안된 방법은 LLM-인간 일치도를 유의미하게 향상시켰습니다. 또한, 개선된 주석 가이드라인은 서로 다른 LLM 모델 간의 일치도를 증가시켰습니다.