본 논문은 검증 가능한 보상이 적용되지 않고, 인간의 선호가 거친 신호로 작용하는 개방형 장문 답변에 대한 LLM(대규모 언어 모델) 훈련을 위해 루브릭이 유연한 방식을 제공함을 보여준다. 루브릭 기반 보상을 사용한 강화 학습이 LLM 사후 훈련에서 지속적인 향상을 이끌어내는 것으로 나타났다. 기존의 대부분의 접근 방식은 훈련 과정에서 정적인 루브릭에 의존한다. 그러나 이러한 정적 루브릭은 보상 해킹과 같은 행동에 취약하며, 훈련 중에 발생하는 새로운 요구 사항을 포착하지 못한다. 본 논문에서는 현재 및 참조 정책의 응답을 쌍으로 비교하여 온라인 방식으로 평가 기준을 동적으로 큐레이션하는 방법인 Online Rubrics Elicitation (OnlineRubrics)를 소개한다. 이 온라인 프로세스는 훈련 진행 중에 오류를 지속적으로 식별하고 완화할 수 있게 한다. 실험적으로, 이 접근 방식은 AlpacaEval, GPQA, ArenaHard 및 전문가 질문 및 루브릭 검증 세트에서 정적 루브릭만을 사용한 훈련보다 최대 8%의 일관된 개선을 가져온다. 추출된 기준을 정성적으로 분석하여 투명성, 실용성, 조직 및 추론과 같은 주요 주제를 식별한다.