Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

What Has Been Lost with Synthetic Evaluation?

Created by
  • Haebom

저자

Alexander Gill, Abhilasha Ravichander, Ana Marasovic

개요

대규모 언어 모델(LLM)의 데이터 생성 활용 증가에 따라, 평가 벤치마크 생성의 중요성이 대두됨. 본 논문은 LLM이 추론 기반 텍스트 벤치마크 생성 요구 사항을 충족할 수 있는지 두 가지 사례 연구를 통해 조사함. 특히, 부정에 대한 추론을 평가하는 CondaQA와 수량에 대한 추론을 평가하는 DROP이라는 두 개의 고품질 독해력 데이터셋의 LLM 생성 버전을 평가하고, 크라우드소싱을 통해 생성된 원본 데이터셋과 비교함. LLM이 원본 데이터셋의 지침에 따라 유효한 버전을 저렴한 비용으로 생성할 수 있지만, 인간이 제작한 벤치마크보다 덜 도전적임을 발견함.

시사점, 한계점

LLM을 활용한 데이터 생성은 비용 효율적이고 유효한 벤치마크 생성을 가능하게 함.
LLM이 생성한 벤치마크는 인간이 제작한 벤치마크보다 난이도가 낮음.
LLM을 통한 벤치마크 생성은 기존 크라우드소싱 방식에 비해 벤치마크의 난이도를 낮출 수 있다는 한계가 있음.
LLM을 이용한 벤치마크 생성 방식의 신중한 검토 필요성을 제기함.
👍