haebom
Sign In
One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Xinjie Shen, Rongzhe Wei, Peizhi Niu, Haoyu Wang, Ruihan Wu, Eli Chien, Bo Li, Pin-Yu Chen, Pan Li
๐ก ๊ฐ์
์ด ๋ ผ๋ฌธ์ ๋ค์ค ํด ๋ํ์์ ์๋๋ ์ ์์ ์ธ ์๋๋ฅผ ํ์งํ๋ ์๋ก์ด ๋ฐฉ์ด ๊ธฐ๋ฒ์ธ TurnGate๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด LLM๋ค์ด ์ฌ๋ฌ ํด์ ๊ฑธ์ณ ๋ถ์ฐ๋ ์ ์์ ์ธ ์๋์ ์ทจ์ฝํ๋ค๋ ๋ฌธ์ ์ ์ ์ธ์ํ๊ณ , ๋ํ์ ์ด๋ ์์ ์์ ์๋ต์ด ํด๋ก์ด ํ๋์ ์ ๋ฐํ ์ ์๋์ง๋ฅผ ์กฐ๊ธฐ์ ํ์ ํ๋ ๋ฐ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด๋ฅผ ์ํด ์ ์์ ์ธ ์๋๊ฐ ๋ฐํ๋๋ ์ต์ํ์ ํด์ ์๋ณํ๋ TurnGate์ ์ด๋ฅผ ํ๋ จํ๊ณ ํ๊ฐํ๊ธฐ ์ํ MTID ๋ฐ์ดํฐ์ ์ ๊ฐ๋ฐํ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ๋ฎ์ ์ค์ฐจ์จ๋ก ํจ๊ณผ์ ์ธ ์ ์์ ์ธ ์๋ ํ์ง ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ค์ค ํด ๋ํ์์ ์๋๋ ์ ์์ ์ธ ์๋๋ฅผ ํ์งํ๋ ๋ฐ ์์ด ํด๋ณ ๊ฐ์ ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
โข
TurnGate๋ ๋ค์ํ ๊ณต๊ฒฉ ๋ฐฉ์, ๋๋ฉ์ธ, ๋์ ๋ชจ๋ธ์ ๋ํด ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์์ ํ ๋ํ ์์คํ ๊ตฌ์ถ์ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โข
MTID ๋ฐ์ดํฐ์ ์ ๋ค์ค ํด ์ ์์ ์ธ ์๋ ํ์ง ์ฐ๊ตฌ๋ฅผ ์ํ ๊ท์คํ ์์์ด ๋ ๊ฒ์ ๋๋ค.
โข
์ ์ฌ์ ์ผ๋ก '์ ์์ ์ธ ํ์ ๋ํ'๋ฅผ ์กฐ๊ธฐ์ ๊ฑฐ๋ถํ ์ํ์ด ์กด์ฌํ๋ฉฐ, ์ด๋ฌํ ๋ฏผ๊ฐ๋๋ฅผ ๋์ฑ ์ ๊ตํ๊ฒ ์กฐ์ ํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage