Sign In

SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhe Liu, Zonghao Ying, Wenxin Zhang, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Hao Peng

πŸ’‘ κ°œμš”

LLM μ—μ΄μ „νŠΈμ˜ 도ꡬ μ‚¬μš© λŠ₯λ ₯이 ν–₯μƒλ˜λ©΄μ„œ μ•…μ˜μ μΈ 곡격으둜 μΈν•œ λ³΄μ•ˆ μœ„ν—˜μ΄ μ¦κ°€ν–ˆμŠ΅λ‹ˆλ‹€. κΈ°μ‘΄ λ°©μ–΄ λ©”μ»€λ‹ˆμ¦˜μ€ μœ ν•΄ν•œ μš”μ²­μ„ 효과적으둜 μ°¨λ‹¨ν•˜μ§€λ§Œ, λ¬΄ν•΄ν•œ μž‘μ—…μ—μ„œλ„ κ³Όλ„ν•˜κ²Œ κ±°λΆ€ν•˜λŠ” λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μ΄λŸ¬ν•œ νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 정적인 κ°€μ΄λ“œλΌμΈ λŒ€μ‹  λ§₯락에 λ§žλŠ” λ°©μ–΄ κ·œμΉ™μ„ μΆ”μΆœν•˜λŠ” 계측적 λ©”λͺ¨λ¦¬ 증강 κ°€λ“œλ ˆμΌ ν”„λ ˆμž„μ›Œν¬μΈ SafeHarborλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
SafeHarborλŠ” μ λŒ€μ  생성과 계측적 λ©”λͺ¨λ¦¬λ₯Ό 톡해 LLM μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ„ λ†’μ΄λ©΄μ„œλ„ μœ ν•΄ν•˜μ§€ μ•Šμ€ μž‘μ—…μ˜ μœ μš©μ„±μ„ μœ μ§€ν•©λ‹ˆλ‹€.
β€’
정보 μ—”νŠΈλ‘œν”Ό 기반의 자체 μ§„ν™” λ©”μ»€λ‹ˆμ¦˜μ€ λ©”λͺ¨λ¦¬ ꡬ쑰λ₯Ό μ§€μ†μ μœΌλ‘œ μ΅œμ ν™”ν•˜μ—¬ 효율적이고 ν”ŒλŸ¬κ·Έ μ•€ ν”Œλ ˆμ΄ κ°€λŠ₯ν•œ μ†”λ£¨μ…˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
GPT-4oμ—μ„œ 63.6%의 높은 무해 μž‘μ—… μœ μš©μ„±μ„ λ‹¬μ„±ν•˜λ©΄μ„œλ„ 93% μ΄μƒμ˜ μœ ν•΄ μš”μ²­ κ±°λΆ€μœ¨μ„ μœ μ§€ν•˜λŠ” μ΅œμ²¨λ‹¨ μ„±λŠ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•΄λ‹Ή μ—°κ΅¬μ˜ ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ κ³Όμ œλŠ” λͺ…μ‹œμ μœΌλ‘œ μ–ΈκΈ‰λ˜μ§€ μ•Šμ•˜μ§€λ§Œ, λ‹€μ–‘ν•œ LLM λͺ¨λΈ 및 λ³΅μž‘ν•œ 곡격 μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 μΆ”κ°€μ μœΌλ‘œ κ²€μ¦ν•˜λŠ” 것이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘