본 논문은 대규모 언어 모델(LLM)의 인간 선호도 정렬을 위한 생성 및 평가 능력 간의 관계를 연구합니다. 다양한 LLM 간의 생성-평가 일관성(GE-consistency)을 분석하고, 강한 LLM 선호 오라클을 사용하여 생성 및 평가 능력 간의 강한 상관관계를 발견했습니다. 이를 바탕으로, 모델의 생성물을 직접 평가하지 않고 평가자로서의 LLM 능력을 평가하는 AlignEval 벤치마크를 제안합니다. AlignEval은 AlpacaEval 및 Arena-Hard와 같은 널리 사용되는 자동 LLM 평가 벤치마크와 유사하거나 더 나은 성능을 보이며 인간 선호도를 포착합니다.