본 논문은 대규모 언어 모델(LLM) 기반 AI 에이전트의 안전성 확보를 위한 세 가지 프레임워크를 제안하고 평가한다. LLM 기반 입출력 필터, 시스템 내 통합 안전 에이전트, 그리고 안전 점검이 내장된 계층적 위임 기반 시스템이 그것이다. 각 프레임워크는 다양한 위험한 사용 사례를 통해 실험적으로 평가되었으며, AI 에이전트의 안전하고 신뢰할 수 있는 배포를 위한 효과적인 안전 프로토콜의 중요성을 강조한다. 특히 인간 팀과 협업하는 AI 시스템에 대한 안전 조치의 필요성에 집중하며, 자동화된 운영 등 실제 응용 분야에서 AI 에이전트의 책임감 있는 사용을 보장하기 위한 강력한 안전장치 개발의 기반을 제공한다.