Sign In

Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy

Created by
  • Haebom
Category
Empty

μ €μž

Lukas Stappen, Ahmet Erkan Turan, Johann Hagerer, Georg Groh

πŸ’‘ κ°œμš”

λ³Έ 논문은 μžλ™μ°¨μ— ν†΅ν•©λ˜λŠ” LLM 기반 λŒ€ν™”ν˜• μ—μ΄μ „νŠΈκ°€ μ•ΌκΈ°ν•˜λŠ” μƒˆλ‘œμš΄ λ³΄μ•ˆ μœ„ν˜‘μ„ 닀룬닀. κΈ°μ‘΄ AI λ³΄μ•ˆ ν”„λ ˆμž„μ›Œν¬μ˜ ν•œκ³„λ₯Ό μ§€μ ν•˜λ©°, μžμ‚°κ³Ό 곡격 경둜λ₯Ό λΆ„λ¦¬ν•˜λŠ” μƒˆλ‘œμš΄ μœ„ν˜‘ λͺ¨λΈλ§ ν”„λ ˆμž„μ›Œν¬μΈ AgentHeLLM을 μ œμ•ˆν•œλ‹€. 이λ₯Ό 톡해 인간 μ€‘μ‹¬μ˜ μžμ‚° λΆ„λ₯˜μ™€ 정식 κ·Έλž˜ν”„ 기반 λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ 닀단계 μœ„ν˜‘μ„ μžλ™ νƒμƒ‰ν•˜λŠ” 도ꡬλ₯Ό κ°œλ°œν•˜μ—¬ μ‹€μ§ˆμ μΈ 적용 κ°€λŠ₯성을 보여쀀닀.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ•ˆμ „μ΄ μ€‘μš”ν•œ μ‹œμŠ€ν…œμ—μ„œ LLM μ—μ΄μ „νŠΈ κ°„μ˜ μƒν˜Έ μž‘μš©μœΌλ‘œ λ°œμƒν•˜λŠ” μœ„ν˜‘μ„ μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜κ³  λͺ¨λΈλ§ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ‹œν•œλ‹€.
β€’
인간 μ€‘μ‹¬μ˜ μžμ‚° λΆ„λ₯˜μ™€ λͺ…ν™•ν•œ 곡격 경둜 ꡬ뢄을 톡해 μ•ˆμ „ν•œ AI μ‹œμŠ€ν…œ 섀계λ₯Ό μœ„ν•œ μ€‘μš”ν•œ 톡찰을 μ œκ³΅ν•œλ‹€.
β€’
μ œμ•ˆλœ λ„κ΅¬λŠ” 닀단계 μœ„ν˜‘ 발견 μžλ™ν™”λ₯Ό 톡해 LLM 기반 μ•ˆμ „ μ‹œμŠ€ν…œμ˜ λ³΄μ•ˆ 강화에 κΈ°μ—¬ν•  수 μžˆλ‹€.
β€’
ν”„λ ˆμž„μ›Œν¬μ˜ μ™„μ „ν•œ 검증 및 μ‹€μ œ μ°¨λŸ‰ ν™˜κ²½μ—μ„œμ˜ κ΄‘λ²”μœ„ν•œ ν…ŒμŠ€νŠΈκ°€ μΆ”κ°€μ μœΌλ‘œ ν•„μš”ν•˜λ‹€.
πŸ‘