Sign In

Semantic Attacks on Tool-Augmented LLMs: Securing the Model Context Protocol Against Descriptor-Level Manipulation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 μ™ΈλΆ€ 도ꡬ와 μƒν˜Έμž‘μš©ν•˜λŠ” Model Context Protocol(MCP)의 λ³΄μ•ˆ 취약점을 λ‹€λ£Ήλ‹ˆλ‹€. 특히, 도ꡬ μ„€λͺ…μž(tool descriptors)λ₯Ό μ‘°μž‘ν•˜μ—¬ LLM의 도ꡬ 선택 및 μΆ”λ‘  과정에 편ν–₯을 μΌμœΌν‚€λŠ” μƒˆλ‘œμš΄ 곡격 기법인 Tool Poisoning, Shadowing, Rug Pull을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ λ‹€μΈ΅ λ°©μ–΄ μ „λž΅μ€ λͺ¨λΈ μž¬ν•™μŠ΅ 없이 도ꡬ μ„€λͺ…μžμ˜ 무결성 검증, 보쑰 LLM을 μ΄μš©ν•œ λ¬Έλ§₯ κ²€ν† , λŸ°νƒ€μž„ κ°€λ“œλ ˆμΌμ„ ν†΅ν•©ν•˜μ—¬ μ΄λŸ¬ν•œ 곡격에 λŒ€ν•œ LLM μ‹œμŠ€ν…œμ˜ 볡원λ ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
도ꡬ μ„€λͺ…μž μˆ˜μ€€μ˜ 곡격은 LLM의 도ꡬ 호좜 λ™μž‘μ„ μ‹¬κ°ν•˜κ²Œ λ³€κ²½ν•  수 있으며, κΈ°λ³Έ μ„€μ •μ—μ„œλŠ” μ΅œλŒ€ 36%의 μ•ˆμ „ν•˜μ§€ μ•Šμ€ 도ꡬ ν˜ΈμΆœμ„ μœ λ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 톡합 λ°©μ–΄ μ‹œμŠ€ν…œμ€ μ•ˆμ „ν•˜μ§€ μ•Šμ€ 도ꡬ ν˜ΈμΆœμ„ 15%둜 쀄이고 μ°¨λ‹¨μœ¨μ„ 74%둜 λ†’μ—¬, 도ꡬ 증강 LLM의 λ³΄μ•ˆ 및 볡원λ ₯을 μ‹€μ§ˆμ μœΌλ‘œ κ°œμ„ ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 ν”„λ‘¬ν”„νŠΈ μ „λž΅μ— 따라 μ„€λͺ…μž μ‘°μž‘μ— λŒ€ν•œ 견고성, μ§€μ—° μ‹œκ°„, 민감도에 μƒλ‹Ήν•œ 차이가 μ‘΄μž¬ν•˜μ—¬ LLM λͺ¨λΈ 선택 μ‹œ λ³΄μ•ˆ 고렀사항이 μ€‘μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 도ꡬ 호좜 LLM μ‹œμŠ€ν…œμ—μ„œ μ„€λͺ…μž μˆ˜μ€€μ˜ μœ„ν˜‘ 및 μ™„ν™” μ „λž΅μ— λŒ€ν•œ ν†΅μ œλœ λͺ¨λΈ κ°„ 평가λ₯Ό μ œκ³΅ν•˜μ§€λ§Œ, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 곡격 μ‹œλ‚˜λ¦¬μ˜€ 및 λ”μš± λ°œμ „λœ 곡격 기법에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘