EigenBench는 인공지능의 가치 정렬 문제 해결을 위한 새로운 벤치마킹 방법론이다. 기존의 정량적 지표 부족 문제를 해결하기 위해, 다양한 언어 모델의 가치 정렬 수준을 상대적으로 비교 평가하는 블랙박스 방식을 제안한다. 여러 모델들의 앙상블, 가치 시스템을 기술하는 헌법, 그리고 시나리오 데이터셋을 입력받아 각 모델의 주어진 헌법과의 정렬 수준을 정량화하는 벡터 점수를 출력한다. 각 모델은 다른 모델들의 출력을 다양한 시나리오에서 평가하고, EigenTrust 알고리즘을 통해 이러한 평가들을 집계하여 전체 앙상블의 가중 평균 판단을 반영하는 점수를 산출한다. 정답 레이블을 사용하지 않고, 합리적인 판단자들 사이에서도 의견이 다를 수 있는 특성을 정량화하도록 설계되었다. 프롬프트 페르소나를 사용한 실험을 통해 EigenBench 점수가 모델 또는 프롬프트에 얼마나 민감한지 테스트한 결과, 대부분의 분산은 프롬프트에 의해 설명되지만, 작은 잔차는 모델 자체의 성향을 정량화한다는 것을 발견했다.