Sign In

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xinjie Shen, Rongzhe Wei, Peizhi Niu, Haoyu Wang, Ruihan Wu, Eli Chien, Bo Li, Pin-Yu Chen, Pan Li

πŸ’‘ κ°œμš”

닀단계 λŒ€ν™”μ—μ„œ μˆ¨κ²¨μ§„ μ•…μ˜μ  μ˜λ„λŠ” LLM에 λŒ€ν•œ μƒˆλ‘œμš΄ μœ„ν˜‘μœΌλ‘œ λ“±μž₯ν–ˆμœΌλ©°, κ³΅κ²©μžλŠ” μ—¬λŸ¬ 건의 평범해 λ³΄μ΄λŠ” λŒ€ν™” 턴에 걸쳐 μ˜λ„λ₯Ό λΆ„μ‚°μ‹œν‚΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” 닀단계 λŒ€ν™”μ—μ„œ μ•…μ˜μ  μ˜λ„κ°€ ν™œμ„±ν™”λ˜λŠ” 졜초의 턴을 νƒμ§€ν•˜λŠ” "TurnGate"λΌλŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μ•…μ˜μ  μ˜λ„ λ°œμƒ μ‹œμ μ„ λͺ…ν™•νžˆ ν•˜κ³ , 정상적인 λŒ€ν™”λ₯Ό 쑰기에 μ°¨λ‹¨ν•˜λŠ” 것을 λ°©μ§€ν•˜κΈ° μœ„ν•œ 닀단계 μ˜λ„ 데이터셋(MTID)을 κ΅¬μΆ•ν–ˆμœΌλ©°, 이λ₯Ό 톡해 TurnGateλŠ” κΈ°μ‘΄ 방법둠 λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ€‘μš”μ„±: 닀단계 λŒ€ν™”μ—μ„œ LLM의 μ•ˆμ „μ„±μ„ κ°•ν™”ν•˜κΈ° μœ„ν•œ 핡심적인 문제인 μˆ¨κ²¨μ§„ μ•…μ˜μ  μ˜λ„λ₯Ό νƒμ§€ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
νš¨κ³Όμ„±: κ΅¬μΆ•λœ MTID와 TurnGate λͺ¨λΈμ€ κΈ°μ‘΄ 탐지 방법둠보닀 μ›”λ“±ν•œ μ„±λŠ₯을 보이며, λ‹€μ–‘ν•œ 곡격 μ‹œλ‚˜λ¦¬μ˜€μ™€ λͺ©ν‘œ λͺ¨λΈμ— λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯도 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ : 아직 νƒμ§€λ˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ μœ ν˜•μ˜ κ³΅κ²©μ΄λ‚˜ λ”μš± κ΅λ¬˜ν•˜κ²Œ μˆ¨κ²¨μ§„ μ˜λ„μ— λŒ€ν•œ λŒ€μ‘ λŠ₯λ ₯은 지속적인 연ꡬ와 데이터셋 ν™•μž₯을 톡해 κ°œμ„ λ  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘