본 논문은 대규모 언어 모델(LLM)의 잠재적 위험에 대한 직접적인 측정이 부족함을 지적하며, AI 위험 평가가 모델의 기능 측정에만 집중해왔다는 점을 문제 삼는다. 모델의 기능은 위험의 지표일 뿐, 위험 자체를 측정하는 것은 아니라는 것이다. 따라서, AI 위험 시나리오에 대한 더 나은 모델링과 정량화를 통해 LLM의 기능과 실질적인 실세계 피해를 연결해야 한다고 주장한다. 본 연구는 기존 AI 벤치마크(Cybench)를 활용하여 위험 추정치를 생성하는 방법을 보여주는 초기 연구로, 전문가들이 Cybench 정보를 사용하여 발생 확률을 추정하는 파일럿 연구 결과를 제시한다. 이 방법론이 정량적 AI 위험 평가에 유용함을 보여주지만, 더욱 강화하기 위한 개선 사항도 제시한다.