Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Evaluation of Large Language Models via Collaborative Filtering

Created by
  • Haebom

저자

Xu-Xiang Zhong, Chao Yi, Han-Jia Ye

개요

본 논문은 대규모 언어 모델(LLM)의 성능 평가 비용을 줄이기 위한 효율적인 방법을 제안합니다. 기존의 LLM 성능 평가는 많은 테스트 인스턴스와 느린 추론 속도로 인해 비용이 많이 들지만, 본 논문에서는 벤치마크의 일부 인스턴스만을 사용하여 모델의 실제 성능을 정확하게 추정하는 방법을 제시합니다. 추천 시스템의 협업 필터링(CF)에서 영감을 얻어, LLM을 사용자로, 테스트 인스턴스를 아이템으로 취급하는 2단계 방식을 제안합니다. 1단계에서는 모델 성능을 쉽게 구분할 수 있는 인스턴스를 선택하고, 2단계에서는 추천 시스템의 평점 예측 문제로 보고 선택되지 않은 인스턴스에 대한 LLM의 성능을 예측합니다. 다양한 LLM과 데이터셋에 대한 실험을 통해 제안된 방법이 추론 오버헤드를 크게 줄이면서도 목표 모델의 성능을 정확하게 추정할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM 성능 평가의 효율성을 크게 향상시킬 수 있습니다.
추론 비용을 절감하여 LLM 개발 및 비교 연구에 기여할 수 있습니다.
협업 필터링 기반의 새로운 LLM 성능 평가 접근 방식을 제시합니다.
한계점:
제안된 방법의 정확도는 인스턴스 선택 및 예측 모델의 성능에 의존적입니다.
다양한 종류의 LLM과 벤치마크에 대한 일반화 성능 검증이 추가적으로 필요합니다.
인스턴스 선택 알고리즘의 최적화 및 예측 모델의 개선 여지가 있습니다.
👍