SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator
Created by
Haebom
저자
Xueyang Zhou, Weidong Wang, Lin Lu, Jiawen Shi, Guiyao Tie, Yongtian Xu, Lixing Chen, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun
개요
본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 안전성 향상을 위한 새로운 프레임워크인 AutoSafe를 제안한다. AutoSafe는 완전 자동화된 합성 데이터 생성을 통해 에이전트의 안전성을 체계적으로 향상시킨다. 핵심적으로, 열린 확장 가능한 위협 모델(OTS)을 도입하여 다양한 시나리오에서 안전 위험을 정확하게 모델링하고, 자동화된 데이터 생성 파이프라인을 통해 안전하지 않은 사용자 행동을 시뮬레이션하고 안전한 응답을 생성하여 대규모의 다양하고 고품질의 안전 훈련 데이터셋을 구축한다. 실험 결과, AutoSafe는 합성 및 실제 안전 벤치마크에서 안전 점수를 평균 45% 향상시켰으며, 실제 작업에서 28.91% 개선을 달성하여 학습된 안전 전략의 일반화 능력을 검증하였다.
시사점, 한계점
•
시사점:
◦
LLM 기반 에이전트의 안전성 향상을 위한 효과적인 프레임워크(AutoSafe) 제시
◦
완전 자동화된 합성 데이터 생성을 통한 안전 훈련 데이터셋 구축으로 실제 위험 데이터 수집의 필요성 제거
◦
열린 확장 가능한 위협 모델(OTS)을 통한 다양한 시나리오에서의 안전 위험 정확한 모델링