Sign In

Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters

Created by
  • Haebom
Category
Empty

저자

Xingjian Zhang, Tianhong Gao, Suliang Jin, Tianhao Wang, Teng Ye, Eytan Adar, Qiaozhu Mei

개요

본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 문제에서, 인간의 주관적인 판단이 필요한 경우 LLM의 신뢰도가 떨어진다는 점에 주목했습니다. 특히, 인간의 판단 뒤에 숨겨진 추론 과정인 "사고 흔적(thinking traces)"을 수집하고 활용하는 것이 중요하지만, 이는 어렵다는 점을 지적합니다. 이에 본 논문은 레이블 데이터만으로 사고 흔적을 추론하는 인간-LLM 협업 프레임워크를 제시합니다. 제안된 프레임워크는 거부 샘플링 방법을 사용하여 대규모로 이러한 흔적을 재구성합니다. 추론된 사고 흔적은 두 가지 보완적인 작업에 적용됩니다: (1) 공개 LLM 평가자 미세 조정; (2) 독점 LLM 평가자를 위한 더 명확한 주석 가이드라인 합성. 여러 데이터셋에서 제안된 방법은 LLM-인간 일치도를 유의미하게 향상시켰습니다. 또한, 개선된 주석 가이드라인은 서로 다른 LLM 모델 간의 일치도를 증가시켰습니다.

시사점, 한계점

시사점:
레이블 데이터만으로도 인간의 사고 흔적을 추론하여 LLM 평가자의 신뢰도를 높일 수 있음을 입증.
추론된 사고 흔적을 활용하여 LLM 평가자를 미세 조정하고, 보다 명확한 주석 가이드라인을 생성함으로써 LLM의 성능을 향상시킴.
LLM을 인간 사고 흔적의 실용적인 대리물로 활용하여, 레이블 데이터만 있는 데이터를 사고 흔적-보강 리소스로 확장 가능.
한계점:
구체적인 한계점은 논문 요약에 명시되지 않음. 추가적인 분석을 통해 파악해야 함. (예: 방법론의 일반화 가능성, 다양한 데이터셋에서의 성능, 거부 샘플링 방법의 효과 등)
👍