본 논문은 대규모 언어 모델(LLMs)의 긴 문맥 이해 능력 평가의 어려움을 지적하며, 소설을 활용한 새로운 벤치마크인 Too Long, Didn't Model (TLDM)을 제시합니다. TLDM은 128k 토큰 이상의 긴 문맥을 가진 소설을 대상으로 줄거리 요약, 세계관 설정, 시간 경과 등을 평가합니다. 실험 결과, 7개의 최첨단 LLMs 모두 64k 토큰을 넘어서는 긴 문맥에서는 안정적인 이해력을 보이지 못하는 것으로 나타났습니다. 따라서 기존의 단순한 벤치마크를 넘어 복잡한 장문맥 상황에서의 성능 평가가 필요하며, TLDM 벤치마크와 관련 코드 및 데이터를 공개하여 향후 연구를 지원합니다.