본 논문은 LLM(Large Language Models)의 긴 컨텍스트 이해 능력을 실제 응용 분야에서 평가하기 위해 설계된 새로운 벤치마크인 LooGLE v2를 소개합니다. 이 벤치마크는 법률, 금융, 게임, 코드 등 다양한 도메인의 16k에서 2M 토큰에 이르는 실제 긴 텍스트를 포함합니다. 10가지 도메인별 장기 의존성 작업을 설계하고 1,934개의 QA 인스턴스를 생성하여 6개의 로컬 배포 모델과 4개의 API 기반 LLM을 평가했습니다. 평가 결과, 최고 성능 모델조차 59.2%의 점수를 기록하여 LLM의 긴 컨텍스트 처리 능력에 한계가 있음을 시사합니다.