SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

작성자

Haebom

카테고리

Empty

저자

Zhe Liu, Zonghao Ying, Wenxin Zhang, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Hao Peng

💡 개요

LLM 에이전트의 도구 사용 능력이 향상되면서 악의적인 공격으로 인한 보안 위험이 증가했습니다. 기존 방어 메커니즘은 유해한 요청을 효과적으로 차단하지만, 무해한 작업에서도 과도하게 거부하는 문제가 발생합니다. 본 논문에서는 이러한 트레이드오프를 해결하기 위해, 정적인 가이드라인 대신 맥락에 맞는 방어 규칙을 추출하는 계층적 메모리 증강 가드레일 프레임워크인 SafeHarbor를 제안합니다.

🔑 시사점 및 한계

•

SafeHarbor는 적대적 생성과 계층적 메모리를 통해 LLM 에이전트의 안전성을 높이면서도 유해하지 않은 작업의 유용성을 유지합니다.

•

정보 엔트로피 기반의 자체 진화 메커니즘은 메모리 구조를 지속적으로 최적화하여 효율적이고 플러그 앤 플레이 가능한 솔루션을 제공합니다.

•

GPT-4o에서 63.6%의 높은 무해 작업 유용성을 달성하면서도 93% 이상의 유해 요청 거부율을 유지하는 최첨단 성능을 입증했습니다.

•

해당 연구의 한계점 또는 향후 과제는 명시적으로 언급되지 않았지만, 다양한 LLM 모델 및 복잡한 공격 시나리오에 대한 일반화 성능을 추가적으로 검증하는 것이 필요할 수 있습니다.

PDF 보기

Made with Slashpage