본 논문은 지난 10년간 발표된 약 100편의 연구를 바탕으로, 정량적 인공지능(AI) 벤치마킹 관행의 단점을 다루는 학제 간 메타 분석 연구이다. 데이터셋 생성의 편향, 부적절한 문서화, 데이터 오염, 신호와 잡음의 구분 실패와 같은 벤치마킹 설계 및 응용의 세부적인 문제점과, 텍스트 기반 AI 모델에 대한 일회성 테스트 로직의 과도한 집중, 다중 모드 AI 모델과 인간 및 다른 기술 시스템과의 상호 작용 고려 실패 등의 광범위한 사회기술적 문제점을 함께 제시한다. 또한, 불일치하는 인센티브, 구성 타당성 문제, 알려지지 않은 미지의 위험, 벤치마킹 결과 조작 문제 등 현재 벤치마킹 관행의 여러 체계적 결함을 강조하고, 최첨단 성능을 우선시하는 문화적, 상업적, 경쟁적 역학으로 인해 더 넓은 사회적 우려가 종종 간과되는 점을 지적한다. 기존 벤치마킹 절차와 관련된 위험을 개괄적으로 제시함으로써, 벤치마킹에 대한 과도한 신뢰에 대한 문제점을 제기하고, 실제 시나리오의 복잡성 속에서 정량적 AI 벤치마킹의 책임성과 관련성을 개선하기 위한 지속적인 노력에 기여한다.