Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX
Created by
Haebom
저자
Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova
개요
POLLUX는 러시아어를 사용하는 대규모 언어 모델(LLM)의 생성 능력을 평가하기 위한 포괄적인 오픈소스 벤치마크입니다. 핵심 기여는 LLM 평가의 해석력을 높이는 새로운 평가 방법론입니다. 각 과제 유형에 대한 상세 기준과 모델이 응답을 평가하고 평가 이유를 제공하는 채점 프로토콜을 정의하여 기존의 자원 집약적인 인간 비교보다 투명하고 기준 중심적인 평가를 가능하게 합니다. 코드 생성, 창작 글쓰기, 실용적인 어시스턴트 사용 사례 등 다양한 생성 영역을 다루는 35가지의 세분화된 과제 유형(총 2,100개의 수작업으로 제작된 전문가 작성 프롬프트)을 포함하며, 각 과제는 난이도(쉬움/중간/어려움)별로 분류됩니다. 또한, 생성 출력에 대한 미묘한 평가를 위해 훈련된 LLM-as-a-Judge(7B 및 32B) 평가자를 공개합니다. 이러한 접근 방식은 확장 가능하고 해석 가능한 평가 및 주석 도구를 제공하여 비용이 많이 들고 정확성이 떨어지는 인간 판단을 효과적으로 대체합니다.