대규모 언어 모델(LLM)의 발전으로 빅테크 기업과 AI 스타트업 간 경쟁이 심화되면서, 모델 평가는 제품 및 투자 의사결정에 중요해졌습니다. 초기에는 MMLU와 같은 공개 평가 세트가 발전을 주도했지만, 데이터 오염 및 편향 문제로 신뢰성에 대한 의문이 제기되었습니다. 이에 따라 고품질의 자체 선별된 테스트 프롬프트와 전문 어노테이터를 사용하여 비밀 평가를 수행하는 사설 데이터 관리자가 등장했습니다. 본 논문은 사설 평가가 오염 문제 해결에 도움이 될 수 있음에도 불구하고, 예기치 못한 재정적 및 평가상의 위험을 초래한다고 주장합니다. 특히, 사설 데이터 관리자와 주요 LLM 기업 간의 사업 관계에서 발생하는 이해 상충 가능성에 주목합니다. 또한 사설 전문 어노테이터의 주관적인 선호도가 사설 관리자의 데이터로 훈련된 모델에 대한 고유한 평가 편향을 초래할 것이라고 강조합니다. 전반적으로 본 논문은 광범위한 공동체 논의와 정책 변화를 초래할 수 있는 사설 평가의 위험을 연구하기 위한 기반을 마련합니다.