# Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

### 저자

Charlotte Li, Nick Hagar, Sachita Nishal, Jeremy Gilbert, Nick Diakopoulos

### 💡 개요

본 연구는 현재 생성형 AI 벤치마크가 실제 사용 사례나 측정하려는 개념을 제대로 반영하지 못한다는 비판에 따라, HCI 접근법을 차용하여 저널리즘 분야에서 사용자 중심의 평가 방법론을 제안합니다. 23명의 저널리즘 전문가와의 워크숍을 통해 도메인 중심의 평가 "레시피 북"을 설계했으며, 이를 통해 실제 현장의 문제점을 파악하고 평가 설계에 대한 구체적인 요구사항을 도출했습니다.

### 🔑 시사점 및 한계

- 저널리즘 분야의 전문가들이 직면하는 실제적이고 맥락화된 AI 평가의 필요성을 강조합니다.

- AI 평가 설계 시 도메인 특화 가치와 다양한 이해관계자의 요구를 균형 있게 고려해야 함을 시사합니다.

- 평가 결과를 전문가들이 이해하고 활용할 수 있도록 평가 리터러시를 향상시키는 방안을 제시합니다.

- 제안된 평가 방법론은 저널리즘이라는 특정 도메인에 국한되어 있어, 다른 도메인으로의 확장 및 일반화 가능성에 대한 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2511.05501)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
