Sign In

MCPShield: Content-Aware Attack Detection for LLM Agent Tool-Call Traffic

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Sultan Zavrak

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM μ—μ΄μ „νŠΈκ°€ μ™ΈλΆ€ 도ꡬλ₯Ό ν˜ΈμΆœν•˜λŠ” Model Context Protocol (MCP) νŠΈλž˜ν”½μ—μ„œ 곡격을 νƒμ§€ν•˜λŠ” MCPShield ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MCPShieldλŠ” μ—μ΄μ „νŠΈ μ„Έμ…˜μ„ κ·Έλž˜ν”„λ‘œ μΈμ½”λ”©ν•˜κ³ , 인자 및 μ‘λ‹΅μ˜ λ¬Έμž₯ μž„λ² λ”© νŠΉμ§•μœΌλ‘œ λ…Έλ“œλ₯Ό ν’λΆ€ν•˜κ²Œ ν•˜λ©°, μ„Έμ…˜μ„ 정상 λ˜λŠ” 곡격으둜 λΆ„λ₯˜ν•©λ‹ˆλ‹€. μ½˜ν…μΈ  μˆ˜μ€€ νŠΉμ§•μ΄ λ©”νƒ€λ°μ΄ν„°λ§Œ μ‚¬μš©ν•˜λŠ” 탐지보닀 μ›”λ“±νžˆ μš°μˆ˜ν•˜λ©°, AUROC 0.89 이상을 λ‹¬μ„±ν•˜λŠ” 것을 μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ½˜ν…μΈ  μˆ˜μ€€ νŠΉμ§• (λ¬Έμž₯ μž„λ² λ”©)이 LLM μ—μ΄μ „νŠΈ 도ꡬ 호좜 νŠΈλž˜ν”½μ—μ„œ 곡격 탐지에 맀우 μ€‘μš”ν•˜λ‹€.
β€’
λ¬΄μž‘μœ„ 데이터 λΆ„ν•  방식은 탐지 μ„±λŠ₯을 κ³ΌλŒ€ν‰κ°€ν•  수 있으며, μž‘μ—…λ³„ 뢄할이 더 μ‹ λ’°ν•  수 μžˆλŠ” 평가 방법을 μ œκ³΅ν•œλ‹€.
β€’
SBERT μž„λ² λ”©μ„ ν™œμš©ν•œ 트리 앙상블 λͺ¨λΈμ΄ GNNκ³Ό 같은 λ³΅μž‘ν•œ 신경망 λͺ¨λΈλ³΄λ‹€ 더 λ‚˜μ€ 탐지 μ„±λŠ₯을 λ³΄μ˜€λ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” μžκ°€ 지도 사전 ν•™μŠ΅μ΄ λ ˆμ΄λΈ” νš¨μœ¨μ„±μ—μ„œ 큰 이점을 μ œκ³΅ν•˜μ§€ λͺ»ν–ˆλ‹€λŠ” 점을 κ°œμ„ ν•˜κ³ , 탐지 μ„±λŠ₯을 λ”μš± ν–₯μƒμ‹œν‚¬ λͺ¨λΈ μ•„ν‚€ν…μ²˜ 및 νŠΉμ§• μΆ”μΆœ 방법에 λŒ€ν•œ 연ꡬ가 ν•„μš”ν•˜λ‹€.
πŸ‘