EvalCards: A Framework for Standardized Evaluation Reporting
Created by
Haebom
Category
Empty
저자
Ruchira Dhar, Danae Sanchez Villegas, Antonia Karamolegkou, Alice Schiavone, Yifei Yuan, Xinyi Chen, Jiaang Li, Stella Frank, Laura De Grazia, Monorama Swain, Stephanie Brandl, Daniel Hershcovich, Anders S{\o}gaard, Desmond Elliott
개요
최근 NLP 분야의 모델 공개 속도가 빨라지면서 투명한 평가 보고의 중요성이 커지고 있다. 최근 평가 및 문서화에 대한 연구를 바탕으로, 재현성, 접근성, 거버넌스 측면에서 현행 보고 방식의 세 가지 지속적인 문제점을 파악했다. 기존 표준화 노력은 미흡하며, EvalCards를 통해 개선 방향을 제시한다. EvalCards는 연구자와 실무자 모두를 위해 투명성을 높이고, 새로운 거버넌스 요구 사항을 충족하는 실질적인 기반을 제공하도록 설계되었다.