Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark

Created by
  • Haebom

저자

Junjie Shi, Wei Ma, Shi Ying, Lingxiao Jiang, Yang liu, Bo Du

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 평가를 위한 새로운 프레임워크인 BIS(Benchmark-Independent Scoring)를 제안합니다. 기존 벤치마크의 고비용 및 데이터 오염 문제를 해결하기 위해, BIS는 생성된 코드를 직접 실행하는 대신 프롬프트 분포만 분석하여 LLM 성능을 예측합니다. 중요도 샘플링 이론과 중요도 가중 오토인코더를 기반으로 구축되어, 기존의 주석이 달린 벤치마크로부터 샘플의 가중치를 재조정하여 새로운 벤치마크에 대한 성능을 추정합니다. 가중치 절단 전략과 적합 분포에 대한 한계 기대값 계산을 통해 추정의 안정성을 높였습니다. BIS는 자원 제약 하에서 벤치마크 개발 및 검증을 지원하고, 프롬프트 선택 및 오염 평가에 대한 신속한 피드백을 제공하는 보완적 도구로서 기능합니다. 4개의 CodeLlama 모델과 9개의 다양한 벤치마크에 걸쳐 8,000개의 평가 지점을 포함하는 광범위한 실험을 통해, 코드 정확도 점수에 대해 평균 절대 예측 오차 1.1% (최고 0.3%, 최저 1.9%)를 달성하고, pass@1에 대해서는 평균 절대 오차 2.15%를 달성하여 신뢰성과 광범위한 적용성을 입증했습니다.

시사점, 한계점

시사점:
LLM의 코드 생성 능력 평가 비용 및 시간을 획기적으로 절감할 수 있습니다.
기존 벤치마크의 데이터 오염 문제를 완화할 수 있습니다.
프롬프트 선택 및 벤치마크 개발에 대한 효율적인 피드백을 제공합니다.
다양한 코드 생성 벤치마크와 LLM에 대한 일반화 성능이 우수합니다.
한계점:
프롬프트 분포 분석에만 의존하기 때문에, 코드 실행을 통한 실제 성능과의 차이가 발생할 수 있습니다.
중요도 가중 오토인코더의 성능에 따라 예측 정확도가 영향을 받을 수 있습니다.
새로운 유형의 프롬프트나 LLM에 대한 일반화 성능을 추가적으로 검증해야 합니다.
가중치 절단 전략 등의 하이퍼파라미터 최적화가 필요할 수 있습니다.
👍