Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OckBench: Measuring the Efficiency of LLM Reasoning

Created by
  • Haebom
Category
Empty

저자

Zheng Du, Hao Kang, Song Han, Tushar Krishna, Ligeng Zhu

개요

GPT-4, Claude 3, Gemini 등 대형 언어 모델의 발전에도 불구하고, 기존 벤치마크가 정확도와 출력 품질에만 집중하여 토큰 효율성을 간과하는 문제를 지적하며, OckBench를 제안합니다. OckBench는 추론 및 코딩 작업에 대한 정확도와 토큰 수를 모두 평가하는 모델 및 하드웨어 독립적인 벤치마크입니다. 다양한 모델을 비교 실험한 결과, 정확도는 유사하지만 토큰 소비량에서 큰 차이를 보이며, 이는 효율성 차이가 중요한 변수임을 나타냅니다. 정확도-효율성 평면에서 파레토 프론티어를 제시하며, 토큰을 "무료"로 취급하는 평가 방식의 변화를 주장합니다. OckBench는 토큰 효율적인 추론 연구를 위한 측정, 비교, 가이드 역할을 합니다.

시사점, 한계점

시사점:
대형 언어 모델 평가 시 토큰 효율성이 중요한 평가 지표임을 강조.
OckBench를 통해 모델 간의 토큰 효율성을 비교하고, 연구 방향을 제시.
정확도와 토큰 효율성의 균형을 고려하는 새로운 평가 패러다임 제시.
한계점:
논문 자체에서는 구체적인 한계점을 명시하지 않음.
👍