Sign In

Peeking Behind Closed Doors: Risks of LLM Evaluation by Private Data Curators

Created by
  • Haebom
Category
Empty

저자

Hritik Bansal, Pratyush Maini

개요

대규모 언어 모델(LLM)의 발전으로 빅테크 기업과 AI 스타트업 간 경쟁이 심화되면서, 모델 평가는 제품 및 투자 의사결정에 중요해졌습니다. 초기에는 MMLU와 같은 공개 평가 세트가 발전을 주도했지만, 데이터 오염 및 편향 문제로 신뢰성에 대한 의문이 제기되었습니다. 이에 따라 고품질의 자체 선별된 테스트 프롬프트와 전문 어노테이터를 사용하여 비밀 평가를 수행하는 사설 데이터 관리자가 등장했습니다. 본 논문은 사설 평가가 오염 문제 해결에 도움이 될 수 있음에도 불구하고, 예기치 못한 재정적 및 평가상의 위험을 초래한다고 주장합니다. 특히, 사설 데이터 관리자와 주요 LLM 기업 간의 사업 관계에서 발생하는 이해 상충 가능성에 주목합니다. 또한 사설 전문 어노테이터의 주관적인 선호도가 사설 관리자의 데이터로 훈련된 모델에 대한 고유한 평가 편향을 초래할 것이라고 강조합니다. 전반적으로 본 논문은 광범위한 공동체 논의와 정책 변화를 초래할 수 있는 사설 평가의 위험을 연구하기 위한 기반을 마련합니다.

시사점, 한계점

시사점: 사설 LLM 평가의 재정적 및 평가적 위험성을 밝힘으로써, 보다 공정하고 투명한 평가 시스템 마련에 대한 논의를 촉구합니다. 데이터 오염 및 주관적 평가 편향 문제에 대한 인식을 높입니다.
한계점: 사설 평가의 구체적인 위험 수준과 그 영향에 대한 정량적 분석이 부족합니다. 사설 평가의 대안으로 제시될 수 있는 공개적이고 신뢰할 수 있는 평가 시스템에 대한 구체적인 제안이 부족합니다.
👍