본 논문은 생성형 AI 시스템에 대한 이해를 돕는 데 중요한 역할을 하는 벤치마크의 유효성에 대한 비판을 다루고, 특히 벤치마크가 실제로 측정하려는 바를 측정하는지(구성 타당성)와 모델이 실제 사용 환경을 제대로 반영하는지(생태 타당성)에 초점을 맞춘다. 이를 위해 인간 중심 접근 방식을 취하여 저널리즘 전문가 23명을 대상으로 워크숍을 진행하고, 도메인 지향적 벤치마크를 설계하기 위한 인사이트를 얻었다. 워크숍 결과를 바탕으로 벤치마크 설계 기회를 발굴하고, 이를 통해 특정 도메인에 더 적합한 벤치마크 개발을 위한 설계 지침을 제공한다.