Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios
Created by
Haebom
저자
Xueyang Zhou, Weidong Wang, Lin Lu, Jiawen Shi, Guiyao Tie, Yongtian Xu, Lixing Chen, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun
개요
본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 안전성을 향상시키기 위한 새로운 프레임워크인 AutoSafe를 제안한다. AutoSafe는 완전 자동화된 합성 데이터 생성을 통해 에이전트의 안전성을 체계적으로 향상시킨다. 구체적으로, 열린 확장 가능한 위협 모델(OTS)을 도입하여 비안전 행동이 사용자 지시, 상호 작용 맥락, 에이전트 행동의 상호 작용으로부터 어떻게 발생하는지 공식화하고, 비안전 사용자 행동을 시뮬레이션하고 안전한 응답을 생성하며 대규모의 다양하고 고품질의 안전 교육 데이터 세트를 구성하는 완전 자동화된 데이터 생성 파이프라인을 개발한다. 합성 및 실제 안전 벤치마크에 대한 포괄적인 실험을 통해 AutoSafe가 안전 점수를 평균 45% 향상시키고 실제 작업에서 28.91% 향상을 달성함을 보여준다.
시사점, 한계점
•
시사점:
◦
LLM 기반 에이전트의 안전성 향상을 위한 효과적인 프레임워크(AutoSafe) 제시.
◦
완전 자동화된 합성 데이터 생성을 통한 안전 교육 데이터 확보 및 실제 위험 데이터 수집의 필요성 제거.
◦
실제 환경에서의 안전 점수 향상을 실험적으로 검증.
◦
OTS라는 열린 확장 가능한 위협 모델을 통해 다양한 시나리오에서 안전 위험을 정확하게 모델링.
◦
프로젝트 페이지 공개를 통한 접근성 및 재현성 확보.
•
한계점:
◦
OTS 모델의 완벽성 및 모든 위협 시나리오 포괄 여부에 대한 추가적인 검증 필요.
◦
합성 데이터의 실제 데이터와의 차이 및 그로 인한 일반화 성능 저하 가능성.
◦
AutoSafe 프레임워크의 적용 가능성 및 효과에 대한 장기적인 관찰 및 평가 필요.
◦
특정 LLM 모델이나 애플리케이션에 대한 의존성 및 일반화 가능성에 대한 추가 연구 필요.