본 논문은 과학 연구에서 점차 중요해지는 기초 모델의 평가 방법에 대한 연구이다. 전문가 검토의 어려움을 해결하기 위해, 인용 횟수 예측과 검토 점수 예측이라는 두 가지 자동 평가 지표를 활용하여 OpenReview의 모든 논문을 분석하였다. 연구 결과, 인용 횟수 예측이 검토 점수 예측보다 더 실행 가능하며, 연구 가설만으로 점수를 예측하는 것보다 전체 논문을 사용하는 것이 더 정확하다는 것을 밝혔다. 또한, 제목과 초록만을 사용한 간단한 예측 모델이 LLM 기반 검토자보다 성능이 우수하지만, 여전히 인간 수준의 일관성에는 미치지 못함을 보였다.