본 논문은 장문맥락 언어 모델(LCLM) 평가를 위한 종합적인 벤치마크인 HELMET을 제시합니다. 기존 벤치마크의 한계점인 응용 분야의 제한적인 다양성, 부족한 문맥 길이, 신뢰할 수 없는 지표, 기본 모델과의 비호환성 등을 해결하기 위해, HELMET은 7가지 다양한 응용 분야 중심의 범주를 포함하고 있으며, 최대 128K 토큰까지 제어 가능한 길이, 신뢰할 수 있는 지표를 위한 모델 기반 평가, 그리고 기본 모델을 견고하게 평가하기 위한 퓨샷 프롬프팅을 추가했습니다. 59개의 LCLM을 포괄적으로 연구하여, NIAH와 같은 합성 과제가 하위 작업 성능을 신뢰할 수 있게 예측하지 못한다는 점, HELMET의 다양한 범주가 서로 다른 경향과 낮은 상관관계를 보인다는 점, 그리고 대부분의 LCLM이 완벽한 NIAH 점수를 달성하지만, 오픈소스 모델은 전체 문맥 추론이나 복잡한 지시 사항을 따르는 작업에서 클로즈드 모델에 비해 상당히 뒤처지며, 길이가 길어질수록 그 격차가 커진다는 점을 밝혔습니다. RAG 작업을 빠른 모델 개발에 사용할 것을 권장하며, 다양한 작업에 대한 전체적인 평가를 옹호합니다.