Sign In

Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ahmad Al-Tawaha, Shangding Gu, Peizhi Niu, Ruoxi Jia, Ming Jin

πŸ’‘ κ°œμš”

κΈ°μ‘΄ λ©”λͺ¨λ¦¬ νƒ‘μž¬ LLM μ—μ΄μ „νŠΈ μ•ˆμ „μ„± ν‰κ°€λŠ” 단일 μž‘μ—… λ‚΄ μ•ˆμ „μ„±λ§Œ μΈ‘μ •ν•˜μ§€λ§Œ, μ‹€μ œ 배포 ν™˜κ²½μ—μ„œλŠ” 였랜 κΈ°κ°„ λ‹€μ–‘ν•œ 독립적인 μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ©° μΆ•μ λœ λ©”λͺ¨λ¦¬κ°€ 후속 μž‘μ—…μ— 영ν–₯을 λ―ΈμΉ©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ μ‹œκ°„μ  λ§₯λ½μ—μ„œμ˜ μ•ˆμ „μ„± λ³€ν™”, 즉 'μ‹œκ°„μ  λ©”λͺ¨λ¦¬ μ˜€μ—Ό' 문제λ₯Ό μ‘°λͺ…ν•˜κ³ , 트리거-ν”„λ‘œλΈŒ ν”„λ‘œν† μ½œμ„ 톡해 λ©”λͺ¨λ¦¬ 좕적 길이에 λ”°λ₯Έ μ•ˆμ „μ„± μœ„ν—˜ 증가 μΆ”μ„Έλ₯Ό μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ©”λͺ¨λ¦¬ νƒ‘μž¬ LLM μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ€ 단일 μƒνƒœκ°€ μ•„λ‹Œ μ‹œκ°„μ— 따라 λ³€ν™”ν•˜λŠ” μ†μ„±μœΌλ‘œ, μž₯기적인 κ΄€μ μ—μ„œμ˜ 평가가 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
λ©”λͺ¨λ¦¬ 좕적은 LLM μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ— μ§€μ†μ μœΌλ‘œ 뢀정적인 영ν–₯을 λ―ΈμΉ  수 있으며, μ΄λŠ” λ‹¨μˆœν•œ μ½˜ν…μΈ  λˆ„μ μ— μ˜ν•œ κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.
β€’
λ©”λͺ¨λ¦¬ μ˜€μ—ΌμœΌλ‘œ μΈν•œ μœ„ν—˜μ€ 생성 단계 μ΄μ „μ˜ 검색 λ‹¨κ³„μ—μ„œλ„ 감지될 수 μžˆμ–΄, 이λ₯Ό ν™œμš©ν•œ 진단 λͺ¨λ‹ˆν„°λ§μ˜ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ ν”„λ‘œν† μ½œκ³Ό κ²°κ³ΌλŠ” νŠΉμ • μ‹œλ‚˜λ¦¬μ˜€ 및 λ©”λͺ¨λ¦¬ μ•„ν‚€ν…μ²˜μ— κ΅­ν•œλ  수 있으며, 더 λ‹€μ–‘ν•œ ν™˜κ²½ 및 λ³΅μž‘ν•œ λ©”λͺ¨λ¦¬ ꡬ쑰에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘