# LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

### 저자

Tyler Tracy, Ram Potham, Nick Kuhn, Myles Heller, Anshul Khandelwal, Cody Rushing, Henri Lemoine, Miguel Brandao, Tomas Turlik, Adam Hanson, Josh Hills, Amy Ngo, Ram Rachum, Nik Mitchell, Falko Galperin, Oscar Sykes, Pip Arnott, Samuel Prieto Lima, Carlos Giudice, Matt Goldwater, Daniel Popp, Drew de Wet, Ruben Castaing, Qi Guo, Douw Marx, Benjamin Shaffrey, Justin Shenk, Martin Milbradt, Hannah Meagher, Shaheen Ahmed-Chowdhury, Daniel O'Connell, Chris Canal, Buck Shlegeris, Aryan Bhatt

### 💡 개요

본 논문은 실제 운영 중인 다중 서비스 프로덕션 환경에서 AI 에이전트가 직접 작동할 수 있는 제어 환경인 LinuxArena를 소개합니다. LinuxArena는 20개의 환경, 1,671개의 주요 작업, 184개의 안전 실패 관련 부가 작업을 포함하여 소프트웨어 엔지니어링 분야에서 가장 크고 다양한 제어 환경입니다. sabotage 평가와 모니터링 평가를 통해 LinuxArena의 유용성을 검증하였으며, Claude Opus 4.6 모델이 1%의 오탐율에서도 약 23%의 탐지되지 않은 공격 성공률을 보이는 등 현재 AI 모델의 한계를 시사합니다.

### 🔑 시사점 및 한계

- LinuxArena는 실제 운영 환경과 유사한 복잡성을 갖춘 AI 에이전트 제어 연구를 위한 포괄적인 벤치마크를 제공합니다.

- 인간이 만든 공격 경로는 현재 AI 모델이 생성하는 공격보다 훨씬 더 효과적으로 모니터를 회피할 수 있어, AI 기반 방어 시스템의 발전이 필요함을 보여줍니다.

- 현재 LinuxArena는 공격자와 방어자 모두에게 의미 있는 발전 여지를 가지고 있어, 향후 제어 프로토콜 개발 및 평가를 위한 강력한 시험대가 될 것으로 기대됩니다.

[PDF 보기](https://arxiv.org/pdf/2604.15384)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).