Sign In

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Created by
  • Haebom
Category
Empty

์ €์ž

Yubo Li, Ramayya Krishnan, Rema Padman

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ๋“ค์ด ๋‹ค๋‹จ๊ณ„ ์ ๋Œ€์  ๊ณต๊ฒฉ์— ์–ผ๋งˆ๋‚˜ ์ทจ์•ฝํ•œ์ง€๋ฅผ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ์–ด๋А ์ •๋„์˜ ๊ฒฌ๊ณ ์„ฑ์„ ์ œ๊ณตํ•˜์ง€๋งŒ ๋ถˆ์™„์ „ํ•˜๋ฉฐ, ๋ชจ๋ธ๋“ค์€ ์˜ค๋„ํ•˜๋Š” ์ œ์•ˆ๊ณผ ์‚ฌํšŒ์  ์••๋ ฅ์— ์ทจ์•ฝํ•œ ํ”„๋กœํ•„์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, '์ž๊ธฐ ์˜์‹ฌ', '์‚ฌํšŒ์  ์ˆœ์‘'๊ณผ ๊ฐ™์€ ์‹คํŒจ ๋ชจ๋“œ๊ฐ€ ์ „์ฒด ์‹คํŒจ์˜ ์ ˆ๋ฐ˜์„ ์ฐจ์ง€ํ•˜๋ฉฐ, ๊ธฐ์กด์˜ ์‹ ๋ขฐ๋„ ๊ธฐ๋ฐ˜ ๋ฐฉ์–ด ๊ธฐ๋ฒ•์€ ์ถ”๋ก  ๋ชจ๋ธ์˜ ๊ณผ์‹  ๋•Œ๋ฌธ์— ํšจ๊ณผ๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋ฐ˜๋“œ์‹œ ์ ๋Œ€์  ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ์„ฑ์œผ๋กœ ์ง๊ฒฐ๋˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋‹ค๋‹จ๊ณ„ ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋ชจ๋ธ์˜ ์ทจ์•ฝ์  ์œ ํ˜•(์˜ค๋„ํ•˜๋Š” ์ œ์•ˆ, ์‚ฌํšŒ์  ์••๋ ฅ, ์ถ”๋ก  ํ”ผ๋กœ ๋“ฑ)์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด์˜ ์‹ ๋ขฐ๋„ ๊ธฐ๋ฐ˜ ๋ฐฉ์–ด ๊ธฐ๋ฒ•์ด ์ถ”๋ก  ๋ชจ๋ธ์˜ ํŠน์„ฑ(๊ณผ์‹ )์œผ๋กœ ์ธํ•ด ํšจ๊ณผ์ ์ด์ง€ ์•Š์œผ๋ฉฐ, ์ƒˆ๋กœ์šด ๋ฐฉ์–ด ์ „๋žต ์„ค๊ณ„์˜ ํ•„์š”์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ๋ชจ๋ธ์˜ ์ˆ˜์™€ ํŠน์ • ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๊ตญํ•œ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์ถ”๋ก  ์ž‘์—… ๋ฐ ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘