# RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics

### 저자

Zhengyang Qi, Charles Dickens, Derek Pham, Amanda Dsouza, Armin Parchami, Frederic Sala, Paroma Varma

### 💡 개요

본 논문은 대규모 언어 모델(LLM)의 개방형 작업 평가에 널리 사용되는 루브릭(rubric)의 품질 문제를 체계적으로 진단하기 위한 RIFT(RubrIc Failure mode Taxonomy)를 제안합니다. RIFT는 신뢰성, 내용 타당성, 결과 타당성의 세 가지 범주로 구성된 8가지 루브릭 실패 모드를 정의하며, 이를 통해 루브릭 설계 및 구성상의 문제점을 식별합니다. 또한, 인간 평가자 간의 높은 일치도(87% 쌍별 일치, 0.64 평균 Cohen's kappa)를 보였으며, 자동화된 루브릭 품질 지표가 인간의 실패 모드 주석과 높은 상관관계(최대 0.86 F1)를 나타냄을 입증합니다.

### 🔑 시사점 및 한계

- 루브릭의 품질 문제를 체계적으로 분류하고 진단할 수 있는 프레임워크를 제공합니다.

- 루브릭의 신뢰성과 타당성 문제를 식별하여 LLM 평가의 정확성과 신뢰성을 향상시킬 수 있습니다.

- 자동화된 루브릭 품질 지표를 통해 대규모 LLM 평가 파이프라인의 진단 효율성을 높일 수 있습니다.

- RIFT는 주로 인간 주석에 기반하여 개발되었으므로, 다양한 유형의 루브릭과 작업에 대한 일반화 가능성 및 편향성 검토가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.01375)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
