본 논문은 대규모 언어 모델(LLM)의 성능에 미치는 확장된 맥락의 영향을 평가하기 위해 새로운 벤치마크 세트를 제시합니다. 기존의 단일 턴 질의응답(QA) 작업에 초점을 맞춘 벤치마크와 달리, 본 연구는 다중 턴 상호 작용에서 맥락의 양과 특성을 체계적으로 변화시키는 벤치마크를 사용하여 GPT, Claude, Gemini 등 여러 LLM을 평가합니다. 그 결과, 다중 턴 상호 작용에서 LLM의 객관식 질문에 대한 성능이 크게 저하될 수 있으며, 특정 모델의 경우 최대 73%까지 정확도가 감소하는 것을 발견했습니다. GPT-4o와 같은 고성능 모델도 최대 32%의 정확도 감소를 보였으며, 모델 크기에 따른 성능 차이는 예측 가능하지 않았습니다. 하지만 맥락 내에서 작업 설명의 전략적 배치는 성능 저하를 크게 완화하여 정확도를 최대 3.5배까지 향상시킬 수 있었습니다. 이러한 결과는 LLM에서 맥락 관련 민감성을 설계, 평가 및 완화하기 위한 강력한 전략의 필요성을 강조합니다.