Language model developers should report train-test overlap
Created by
Haebom
저자
Andy K Zhang, Kevin Klyman, Yifan Mai, Yoav Levine, Yian Zhang, Rishi Bommasani, Percy Liang
개요
본 논문은 언어 모델 평가의 신뢰성을 높이기 위해 훈련 데이터와 테스트 데이터 간의 중복(train-test overlap) 문제를 다룬다. 현재 대부분의 언어 모델은 훈련 데이터 공개 없이 평가 결과만 공개하기 때문에, train-test overlap을 측정하기 어렵다는 점을 지적한다. 연구진은 30개 모델 개발자를 대상으로 설문조사를 실시하여 train-test overlap 관련 정보 공개 현황을 분석하고, 단 9개 개발자만이 관련 정보를 공개하고 있다는 사실을 밝혔다. 나아가, 언어 모델 개발자들이 공개 테스트 세트에 대한 평가 결과를 보고할 때 train-test overlap 통계 및/또는 훈련 데이터를 공개해야 한다고 주장한다.
시사점, 한계점
•
시사점:
◦
언어 모델 평가의 신뢰성 확보를 위해 train-test overlap 정보 공개의 중요성을 강조한다.