본 논문은 EU AI Act와 같은 새로운 규제 환경에서의 GPAI 모델 평가에 대한 문제점을 다룬다. 기존의 벤치마크 기반 평가 방식은 새로운 규제에서 중요시하는 시스템적 위험을 측정하도록 설계되지 않았다는 점을 지적하며, 이러한 "벤치마크-규제 간극"을 정량화하기 위한 새로운 체계적 프레임워크인 Bench-2-CoP를 제시한다. Bench-2-CoP는 LLM을 이용하여 널리 사용되는 벤치마크의 194,955개 질문을 EU AI Act의 모델 기능 및 성향 분류 체계와 매핑한다. 분석 결과, 기존 벤치마크는 "환각 경향"과 "성능 신뢰성 부족"에 집중하는 반면, 자율적 AI 개발, 인간 감독 회피 등 제어 상실 시나리오와 관련된 중요한 기능적 역량은 전혀 다루지 않는 심각한 불일치를 드러낸다. 따라서 현재의 공개 벤치마크는 규제 준수에 필요한 포괄적인 위험 평가를 제공하기에 불충분하며, 차세대 평가 도구 개발에 대한 중요한 통찰력을 제공한다고 결론짓는다.