대규모 언어 모델(LLM) 기반 에이전트는 훈련 및 미세 조정 중 백도어 공격으로 인해 심각한 보안 위험에 직면합니다. 이러한 손상된 에이전트는 입력 또는 환경에 특정 트리거가 제공될 때 악의적인 작업을 수행하도록 조작될 수 있습니다. 본 논문에서는 LLM 기반 에이전트에 대한 다양한 백도어 공격에 대한 새로운 방어 메커니즘인 ReAgent를 제시합니다. 백도어 공격은 사용자의 지시, 에이전트의 계획 및 실행 간의 불일치를 초래하는 경우가 많습니다. 이러한 통찰력을 바탕으로 ReAgent는 두 가지 수준의 접근 방식을 사용하여 잠재적인 백도어를 감지합니다. 실행 수준에서 ReAgent는 에이전트의 생각과 행동 간의 일관성을 확인하고, 계획 수준에서는 ReAgent는 에이전트가 자신의 생각 경로를 기반으로 지시를 재구성하는 기능을 활용하여 재구성된 지시와 사용자의 지시 간의 일관성을 확인합니다. 광범위한 평가는 다양한 작업에 걸쳐 다양한 백도어 공격에 대한 ReAgent의 효과를 보여줍니다. 예를 들어, ReAgent는 데이터베이스 작업에서 공격 성공률을 최대 90%까지 줄이며, 기존 방어보다 훨씬 우수한 성능을 보입니다. 이 연구는 손상된 에이전트 자체를 활용하여 백도어 위험을 완화할 수 있는 가능성을 보여줍니다.