Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX
Created by
Haebom
저자
Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova
개요
POLLUX는 러시아어를 위한 대규모 언어 모델(LLM)의 생성 능력을 평가하도록 설계된 포괄적인 오픈소스 벤치마크입니다. 주요 기여는 LLM 평가의 해석력을 높이는 새로운 평가 방법론입니다. 각 작업 유형에 대해 상세한 기준 집합을 정의하고, 모델이 응답을 평가하고 등급에 대한 근거를 제공하는 채점 프로토콜을 개발했습니다. 이를 통해 기존의 자원 소모적인, 나란히 비교하는 방식의 인간 비교를 넘어 투명하고 기준 중심적인 평가가 가능해집니다. POLLUX는 코드 생성, 창작 글쓰기, 실용적인 조수 사용 사례 등 다양한 생성 영역을 다루는 35가지 작업 유형의 세분화된 분류 체계를 포함하며, 총 2,100개의 수작업으로 제작되고 전문적으로 작성된 프롬프트를 포함합니다. 각 작업은 난이도(쉬움/중간/어려움)별로 분류되며, 전문가가 처음부터 데이터 세트를 구축했습니다. 또한, 생성 출력의 미묘한 평가를 위해 훈련된 LLM-as-a-Judge(7B 및 32B) 평가자 집합을 공개합니다. 이러한 접근 방식은 확장 가능하고 해석 가능한 평가 및 주석 도구를 모델 개발에 제공하여 비용이 많이 들고 정확도가 낮은 인간 판단을 효과적으로 대체합니다.