haebom
Sign In
SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhe Liu, Zonghao Ying, Wenxin Zhang, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Hao Peng
π‘ κ°μ
LLM μμ΄μ νΈμ λꡬ μ¬μ© λ₯λ ₯μ΄ ν₯μλλ©΄μ μ μμ μΈ κ³΅κ²©μΌλ‘ μΈν 보μ μνμ΄ μ¦κ°νμ΅λλ€. κΈ°μ‘΄ λ°©μ΄ λ©μ»€λμ¦μ μ ν΄ν μμ²μ ν¨κ³Όμ μΌλ‘ μ°¨λ¨νμ§λ§, 무ν΄ν μμ μμλ κ³Όλνκ² κ±°λΆνλ λ¬Έμ κ° λ°μν©λλ€. λ³Έ λ Όλ¬Έμμλ μ΄λ¬ν νΈλ μ΄λμ€νλ₯Ό ν΄κ²°νκΈ° μν΄, μ μ μΈ κ°μ΄λλΌμΈ λμ λ§₯λ½μ λ§λ λ°©μ΄ κ·μΉμ μΆμΆνλ κ³μΈ΅μ λ©λͺ¨λ¦¬ μ¦κ° κ°λλ μΌ νλ μμν¬μΈ SafeHarborλ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
SafeHarborλ μ λμ μμ±κ³Ό κ³μΈ΅μ λ©λͺ¨λ¦¬λ₯Ό ν΅ν΄ LLM μμ΄μ νΈμ μμ μ±μ λμ΄λ©΄μλ μ ν΄νμ§ μμ μμ μ μ μ©μ±μ μ μ§ν©λλ€.
β’
μ 보 μνΈλ‘νΌ κΈ°λ°μ μ체 μ§ν λ©μ»€λμ¦μ λ©λͺ¨λ¦¬ ꡬ쑰λ₯Ό μ§μμ μΌλ‘ μ΅μ ννμ¬ ν¨μ¨μ μ΄κ³ νλ¬κ·Έ μ€ νλ μ΄ κ°λ₯ν μ루μ μ μ 곡ν©λλ€.
β’
GPT-4oμμ 63.6%μ λμ λ¬΄ν΄ μμ μ μ©μ±μ λ¬μ±νλ©΄μλ 93% μ΄μμ μ ν΄ μμ² κ±°λΆμ¨μ μ μ§νλ μ΅μ²¨λ¨ μ±λ₯μ μ μ¦νμ΅λλ€.
β’
ν΄λΉ μ°κ΅¬μ νκ³μ λλ ν₯ν κ³Όμ λ λͺ μμ μΌλ‘ μΈκΈλμ§ μμμ§λ§, λ€μν LLM λͺ¨λΈ λ° λ³΅μ‘ν 곡격 μλ리μ€μ λν μΌλ°ν μ±λ₯μ μΆκ°μ μΌλ‘ κ²μ¦νλ κ²μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage