Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX

Created by
  • Haebom

저자

Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova

개요

POLLUX는 러시아어를 위한 대규모 언어 모델(LLM)의 생성 능력을 평가하도록 설계된 포괄적인 오픈소스 벤치마크입니다. LLM 평가의 해석성을 높이는 새로운 평가 방법론을 제시하며, 각 작업 유형에 대한 세부 기준 세트와 모델이 응답을 평가하고 평가에 대한 근거를 제공하는 채점 프로토콜을 개발했습니다. 이는 기존의 자원 집약적인 인간 비교보다 투명하고 기준 중심적인 평가를 가능하게 합니다. POLLUX는 코드 생성, 창작 글쓰기, 실용적인 어시스턴트 사용 사례 등 다양한 생성 영역을 포함하는 35가지 작업 유형의 세분화된 분류 체계와 총 2,100개의 수작업으로 제작되고 전문가가 작성한 프롬프트로 구성됩니다. 각 작업은 난이도(쉬움/중간/어려움)별로 분류되며, 전문가가 데이터 세트를 처음부터 구축했습니다. 또한, 생성 출력의 미묘한 평가를 위해 훈련된 LLM-as-a-Judge(7B 및 32B) 평가자 패밀리를 공개합니다. 이러한 접근 방식은 확장 가능하고 해석 가능한 평가 및 주석 도구를 모델 개발에 제공하여 비용이 많이 들고 정확도가 떨어지는 인간 판단을 효과적으로 대체합니다.

시사점, 한계점

시사점:
러시아어 LLM의 생성 능력 평가를 위한 포괄적이고 오픈소스인 벤치마크 제공.
LLM 평가의 해석성을 향상시키는 새로운 평가 방법론 제시.
비용 효율적이고 확장 가능한 자동화된 평가 시스템 구축.
다양한 생성 영역을 포괄하는 35가지 작업 유형과 2,100개의 프롬프트 제공.
전문가에 의한 데이터셋 제작으로 신뢰성 확보.
한계점:
현재 러시아어에만 국한된 벤치마크. 다른 언어에 대한 확장성 필요.
LLM-as-a-Judge의 성능 및 편향성에 대한 추가 연구 필요.
평가 기준의 객관성 및 일반화 가능성에 대한 추가 검증 필요.
7B 및 32B 모델의 LLM-as-a-Judge의 자원 소모에 대한 고려 필요.
👍