Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX

Created by
  • Haebom

저자

Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova

개요

POLLUX는 러시아어를 사용하는 대규모 언어 모델(LLM)의 생성 능력을 평가하기 위한 포괄적인 오픈소스 벤치마크입니다. 핵심 기여는 LLM 평가의 해석력을 높이는 새로운 평가 방법론입니다. 각 과제 유형에 대한 상세 기준과 모델이 응답을 평가하고 평가 이유를 제공하는 채점 프로토콜을 정의하여 기존의 자원 집약적인 인간 비교보다 투명하고 기준 중심적인 평가를 가능하게 합니다. 코드 생성, 창작 글쓰기, 실용적인 어시스턴트 사용 사례 등 다양한 생성 영역을 다루는 35가지의 세분화된 과제 유형(총 2,100개의 수작업으로 제작된 전문가 작성 프롬프트)을 포함하며, 각 과제는 난이도(쉬움/중간/어려움)별로 분류됩니다. 또한, 생성 출력에 대한 미묘한 평가를 위해 훈련된 LLM-as-a-Judge(7B 및 32B) 평가자를 공개합니다. 이러한 접근 방식은 확장 가능하고 해석 가능한 평가 및 주석 도구를 제공하여 비용이 많이 들고 정확성이 떨어지는 인간 판단을 효과적으로 대체합니다.

시사점, 한계점

시사점:
러시아어 LLM의 생성 능력을 평가하기 위한 포괄적이고 오픈소스인 벤치마크 제공.
해석 가능성을 높이는 새로운 평가 방법론 제시.
LLM-as-a-Judge를 활용한 확장 가능하고 효율적인 평가 시스템 구축.
기존의 인간 평가 방식의 한계를 극복.
다양한 과제 유형과 난이도를 포함하는 풍부한 데이터셋 제공.
한계점:
현재는 러시아어 LLM에 국한된 평가 벤치마크. 다른 언어 지원 필요.
LLM-as-a-Judge의 평가 정확도에 대한 추가적인 검증 필요.
벤치마크의 범위가 넓지만 특정 영역에 대한 심층적인 평가가 부족할 수 있음.
전문가가 수작업으로 데이터셋을 제작하였으므로, 편향성 가능성 존재.
👍