Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Online Rubrics Elicitation from Pairwise Comparisons

Created by
  • Haebom

저자

MohammadHossein Rezaei, Robert Vacareanu, Zihao Wang, Clinton Wang, Bing Liu, Yunzhong He, Afra Feyza Akyurek

온라인 루브릭 추출 (OnlineRubrics)

개요

본 논문은 검증 가능한 보상이 적용되지 않고, 인간의 선호가 거친 신호로 작용하는 개방형 장문 답변에 대한 LLM(대규모 언어 모델) 훈련을 위해 루브릭이 유연한 방식을 제공함을 보여준다. 루브릭 기반 보상을 사용한 강화 학습이 LLM 사후 훈련에서 지속적인 향상을 이끌어내는 것으로 나타났다. 기존의 대부분의 접근 방식은 훈련 과정에서 정적인 루브릭에 의존한다. 그러나 이러한 정적 루브릭은 보상 해킹과 같은 행동에 취약하며, 훈련 중에 발생하는 새로운 요구 사항을 포착하지 못한다. 본 논문에서는 현재 및 참조 정책의 응답을 쌍으로 비교하여 온라인 방식으로 평가 기준을 동적으로 큐레이션하는 방법인 Online Rubrics Elicitation (OnlineRubrics)를 소개한다. 이 온라인 프로세스는 훈련 진행 중에 오류를 지속적으로 식별하고 완화할 수 있게 한다. 실험적으로, 이 접근 방식은 AlpacaEval, GPQA, ArenaHard 및 전문가 질문 및 루브릭 검증 세트에서 정적 루브릭만을 사용한 훈련보다 최대 8%의 일관된 개선을 가져온다. 추출된 기준을 정성적으로 분석하여 투명성, 실용성, 조직 및 추론과 같은 주요 주제를 식별한다.

시사점, 한계점

시사점:
온라인 루브릭 추출 방식은 동적으로 평가 기준을 생성하여 LLM 훈련 성능을 향상시킨다.
정적 루브릭 기반 훈련보다 다양한 벤치마크에서 일관된 성능 향상을 보인다.
추출된 루브릭 기준을 통해 LLM의 특성과 강점을 파악할 수 있다.
한계점:
논문에 명시된 한계점 정보가 없음.
👍