본 논문은 모델의 긴 컨텍스트 활용 능력을 평가하기 위한 새로운 벤치마크 Oolong을 소개한다. 기존의 긴 컨텍스트 평가가 컨텍스트의 일부만을 활용하는 경향이 있는 반면, Oolong은 개별 텍스트 청크를 분석하고 이를 통합하여 분포적 질문에 답하는 방식을 요구한다. Oolong은 두 개의 작업 세트로 구성된다: 자연스러운 합성 작업을 포함하는 Oolong-synth와 실제 대화 데이터를 기반으로 하는 Oolong-real. Oolong은 모델이 대량의 예시를 처리하고, 분류 및 카운팅을 수행하며, 시간적 및 사용자 관계에 대한 추론을 수행하도록 요구한다. 최첨단 모델인 GPT-5, Claude-Sonnet-4, Gemini-2.5-Pro조차 128K 컨텍스트 길이에서 50% 미만의 정확도를 보이며, 벤치마크의 어려움을 보여준다. 논문은 Oolong 데이터와 평가 도구를 공개하여 긴 텍스트에 대한 추론 능력을 향상시키는 모델 개발을 촉진하고자 한다.