본 논문은 대규모 언어 모델(LLM)을 이용한 데이터 생성의 증가하는 추세 속에서, 평가 벤치마크 생성의 어려움을 다룹니다. 두 가지 사례 연구(CondaQA와 DROP)를 통해 LLM이 생성한 벤치마크와 인간이 정성적으로 생성한 벤치마크를 비교 분석합니다. LLM 프롬프팅을 통해 비용 효율적으로 유효한 데이터셋 변형을 생성할 수 있음을 보여주지만, LLM이 생성한 벤치마크는 인간이 생성한 벤치마크보다 LLM에게 덜 어렵다는 것을 발견합니다. 이는 LLM을 이용한 평가 데이터 생성 방식의 장점과 한계를 보여주는 결과입니다.