본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 평가를 위한 새로운 프레임워크인 BIS(Benchmark-Independent Scoring)를 제안합니다. 기존 벤치마크의 고비용 및 데이터 오염 문제를 해결하기 위해, BIS는 생성된 코드를 직접 실행하는 대신 프롬프트 분포만 분석하여 LLM 성능을 예측합니다. 중요도 샘플링 이론과 중요도 가중 오토인코더를 기반으로 구축되어, 기존의 주석이 달린 벤치마크로부터 샘플의 가중치를 재조정하여 새로운 벤치마크에 대한 성능을 추정합니다. 가중치 절단 전략과 적합 분포에 대한 한계 기대값 계산을 통해 추정의 안정성을 높였습니다. BIS는 자원 제약 하에서 벤치마크 개발 및 검증을 지원하고, 프롬프트 선택 및 오염 평가에 대한 신속한 피드백을 제공하는 보완적 도구로서 기능합니다. 4개의 CodeLlama 모델과 9개의 다양한 벤치마크에 걸쳐 8,000개의 평가 지점을 포함하는 광범위한 실험을 통해, 코드 정확도 점수에 대해 평균 절대 예측 오차 1.1% (최고 0.3%, 최저 1.9%)를 달성하고, pass@1에 대해서는 평균 절대 오차 2.15%를 달성하여 신뢰성과 광범위한 적용성을 입증했습니다.