Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Measuring what Matters: Construct Validity in Large Language Model Benchmarks

Created by
  • Haebom
Category
Empty

저자

Andrew M. Bean, Ryan Othniel Kearns, Angelika Romanou, Franziska Sofia Hafner, Harry Mayne, Jan Batzner, Negar Foroutan, Chris Schmitz, Karolina Korgul, Hunar Batra, Oishi Deb, Emma Beharry, Cornelius Emde, Thomas Foster, Anna Gausen, Maria Grandury, Simeng Han, Valentin Hofmann, Lujain Ibrahim, Hazel Kim, Hannah Rose Kirk, Fangru Lin, Gabrielle Kaili-May Liu, Lennart Luettgau, Jabez Magomere, Jonathan Rystr{\o}m, Anna Sotnikova, Yushi Yang, Yilun Zhao, Adel Bibi, Antoine Bosselut, Ronald Clark, Arman Cohan, Jakob Foerster, Yarin Gal, Scott A. Hale, Inioluwa Deborah Raji, Christopher Summerfield, Philip H. S. Torr, Cozmin Ududec, Luc Rocher, Adam Mahdi

개요

대규모 언어 모델(LLM)의 안전성 및 견고성을 평가하는 것은 배포 전에 필수적입니다. '안전성' 및 '견고성'과 같은 추상적이고 복잡한 현상을 측정하려면 강력한 구성 타당성이 필요합니다. 29명의 전문가 검토자와 함께 자연어 처리 및 기계 학습 분야의 주요 컨퍼런스에서 445개의 LLM 벤치마크를 체계적으로 검토했습니다. 검토된 논문에서 측정된 현상, 작업, 채점 지표와 관련된 패턴을 발견했으며, 이는 결과 주장의 타당성을 저해합니다. 이러한 단점을 해결하기 위해 LLM 벤치마크 개발에 대한 8가지 주요 권장 사항과 실질적인 지침을 제공합니다.

시사점, 한계점

LLM 벤치마크의 타당성을 저해하는 패턴 발견
LLM의 안전성 및 견고성 평가의 중요성 강조
LLM 벤치마크 개발에 대한 8가지 권장 사항 제시
445개의 벤치마크를 대상으로 한 체계적 검토 수행
전문가 검토진의 참여
구체적인 한계점은 논문 내용에서 추가적으로 확인 필요
👍