본 논문은 언어 모델(LM) 에이전트와 함수 호출의 최근 발전으로 다양한 디지털 영역에서 문제를 해결하는 자율적이고 피드백 기반 시스템이 가능해졌다는 점을 배경으로, LM 에이전트의 고유한 한계를 이해하기 위해 인기 있는 오픈소스 저장소에서 100개의 대규모 수작업 다중 파일 리팩토링 작업으로 구성된 벤치마크 RefactorBench를 제시합니다. RefactorBench의 작업을 해결하려면 여러 파일에 걸친 종속성을 철저히 탐색하고 관련 지침을 충실히 준수해야 합니다. 각 작업은 다양한 특이성을 가진 3개의 자연어 지침으로 정의되며 상호 배타적이어서 동일한 저장소에서 더 긴 결합 작업을 만들 수 있습니다. RefactorBench에 대한 기준선은 현재 LM 에이전트가 간단한 구성 작업에서 어려움을 겪고, 기본 지침으로 작업의 22%만 해결하는 반면, 시간 제약이 있는 인간 개발자는 87%를 해결한다는 것을 보여줍니다. 궤적 분석을 통해 LM 에이전트의 다양한 고유한 실패 모드를 식별하고, 과거 작업 추적 실패 모드를 추가로 탐구합니다. 상태 표현을 조건으로 하는 기준 에이전트를 적용하여 RefactorBench 작업 해결에서 43.9% 향상을 달성했습니다. 또한 상태 인식 접근 방식을 전체 디지털 환경으로 확장하고 향후 연구를 위한 잠재적인 방향을 제시합니다. RefactorBench는 코드 영역 내에서 실제 다중 홉 작업 세트를 제공하여 LM 에이전트 연구를 지원하는 것을 목표로 합니다.