EigenBench là một phương pháp đánh giá chuẩn mới để giải quyết vấn đề căn chỉnh giá trị trong AI. Để giải quyết tình trạng thiếu các số liệu định lượng hiện có, phương pháp này đề xuất một phương pháp hộp đen đánh giá so sánh mức độ căn chỉnh giá trị giữa các mô hình ngôn ngữ khác nhau. Phương pháp này lấy đầu vào là một tập hợp các mô hình, một cấu trúc mô tả hệ thống giá trị và một tập dữ liệu kịch bản, sau đó đưa ra một điểm số vectơ định lượng mức độ căn chỉnh của từng mô hình với cấu trúc đã cho. Mỗi mô hình đánh giá đầu ra của các mô hình khác trong các kịch bản khác nhau, và thuật toán EigenTrust tổng hợp các đánh giá này để tạo ra một điểm số phản ánh đánh giá trung bình có trọng số của toàn bộ tập hợp. Phương pháp này được thiết kế để định lượng các đặc điểm có thể khác nhau ngay cả giữa các thẩm phán lý trí, mà không cần dựa vào nhãn câu trả lời đúng. Các thí nghiệm sử dụng các nhân vật gợi ý để kiểm tra độ nhạy của điểm số EigenBench đối với các mô hình hoặc gợi ý cho thấy rằng trong khi phần lớn phương sai được giải thích bởi các gợi ý, thì các phần dư nhỏ định lượng các sai lệch vốn có của chính các mô hình.