본 연구에서는 대규모 언어 모델(LLM)을 자연어 생성(NLG) 외의 다양한 평가 시나리오에서 일반적인 평가자로 활용할 수 있는 가능성을 탐구한다. 기존 LLM 기반 평가자는 비용이 많이 드는 인간이 설계한 평가 원칙에 의존하여 일반화에 어려움을 겪는데, 이는 주석 데이터 및 LLM의 이해와 일치하지 않는 경우가 많기 때문이다. 이러한 문제를 해결하기 위해, LLM 보조 몬테카를로 트리 탐색(MCTS)을 사용하여 데이터에서 점수 규칙을 자동으로 추출하는 규칙 증강 평가 패러다임을 제안한다. 또한, 학습된 규칙을 LLM이 효과적으로 적용할 수 있도록 Chain-of-Rule (CoR)과 강화 학습을 통해 규칙 증강 LLM 평가자(RuAE)를 훈련하는 두 가지 전략을 제시한다. 다양한 작업에 대한 광범위한 실험을 통해 제안된 방법의 효과와 일반화 가능성을 입증한다.