LoCoBench는 수백만 토큰에 이르는 긴 맥락 창을 가진 장문맥 언어 모델(LLM)을 실제적이고 복잡한 소프트웨어 개발 시나리오에서 평가하기 위해 특별히 설계된 포괄적인 벤치마크입니다. 기존의 단일 함수 완성이나 짧은 맥락 작업에 초점을 맞춘 코드 평가 벤치마크와 달리, LoCoBench는 전체 코드베이스를 이해하고, 여러 파일을 거쳐 추론하고, 대규모 소프트웨어 시스템에서 아키텍처 일관성을 유지하는 데 필요한 장문맥 기능에 대한 중요한 평가 격차를 해소합니다. 10개의 프로그래밍 언어에 걸쳐 체계적으로 생성된 8,000개의 평가 시나리오를 제공하며, 맥락 길이는 1만~100만 토큰으로 100배의 변화를 보여 실제 소프트웨어 개발 환경에서 장문맥 성능 저하를 정밀하게 평가할 수 있도록 합니다. 아키텍처 이해, 파일 간 리팩토링, 다중 세션 개발, 버그 조사, 기능 구현, 코드 이해, 통합 테스트, 보안 분석 등 장문맥 기능을 포착하는 8가지 작업 범주를 소개합니다. 5단계 파이프라인을 통해 전례 없는 규모로 복잡한 코드베이스에 대한 추론을 LLM에 요구하는 다양하고 고품질의 시나리오를 생성합니다. 4가지 차원에 걸쳐 17가지 지표(8가지 새로운 평가 지표 포함)와 LoCoBench Score (LCBS)를 포함한 포괄적인 평가 프레임워크를 도입합니다. 최첨단 장문맥 모델에 대한 평가 결과, 상당한 성능 격차가 드러나 복잡한 소프트웨어 개발에서의 장문맥 이해가 상당한 미해결 과제임을 보여줍니다. LoCoBench는 https://github.com/SalesforceAIResearch/LoCoBench 에서 공개됩니다.