대규모 언어 모델(LLM)의 데이터 생성 활용 증가에 따라, 평가 벤치마크 생성의 중요성이 대두됨. 본 논문은 LLM이 추론 기반 텍스트 벤치마크 생성 요구 사항을 충족할 수 있는지 두 가지 사례 연구를 통해 조사함. 특히, 부정에 대한 추론을 평가하는 CondaQA와 수량에 대한 추론을 평가하는 DROP이라는 두 개의 고품질 독해력 데이터셋의 LLM 생성 버전을 평가하고, 크라우드소싱을 통해 생성된 원본 데이터셋과 비교함. LLM이 원본 데이터셋의 지침에 따라 유효한 버전을 저렴한 비용으로 생성할 수 있지만, 인간이 제작한 벤치마크보다 덜 도전적임을 발견함.