본 논문은 언어 모델 에이전트의 자율 복제 가능성이 안전에 미치는 위험을 평가하기 위해 RepliBench라는 평가 도구를 제시합니다. RepliBench는 자원 획득, 모델 가중치 유출, 컴퓨팅 자원으로의 복제, 장기간 지속성 유지 등 네 가지 핵심 영역으로 구성된 자율 복제 능력을 측정하도록 설계되었습니다. 20개의 새로운 작업군(총 86개의 개별 작업)을 만들어 5개의 최첨단 모델을 벤치마킹한 결과, 현재로서는 자기 복제의 실질적인 위협은 되지 않지만 여러 구성 요소에서 성공하고 있으며 빠르게 발전하고 있음을 발견했습니다. 모델들은 클라우드 컴퓨팅 제공업체에서 인스턴스를 배포하고, 자기 복제 프로그램을 작성하고, 간단한 보안 설정 하에서 모델 가중치를 유출할 수 있지만, KYC 확인을 통과하거나 강력하고 지속적인 에이전트 배포를 설정하는 데는 어려움을 겪습니다. 평가된 최고의 모델(Claude 3.7 Sonnet)은 20개 작업군 중 15개에서 pass@10 점수가 50%를 초과했고, 가장 어려운 변형에서는 9개 작업군에서 50%를 초과했습니다. 이러한 결과는 나머지 영역의 개선이나 인간의 지원을 통해 자율 복제 능력이 곧 등장할 수 있음을 시사합니다.