Sign In

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์•ˆ์ „์„ฑ ํŽธํ–ฅ์„ ์šฐํšŒํ•˜๋Š” ์ ๋Œ€์  ๊ณต๊ฒฉ์— ๋Œ€ํ•œ "ํƒˆ์˜ฅ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™"์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์ด ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ ๋‹คํ•ญ์‹ ์„ฑ์žฅ๋ฅ ์—์„œ ์ง€์ˆ˜ ์„ฑ์žฅ๋ฅ ๋กœ ์ฆํญ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ์ด๋ก ์ ์œผ๋กœ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์Šคํ•€ ์œ ๋ฆฌ ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ž‘์€ ์ฃผ์ž… ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋‹คํ•ญ์‹ ์Šค์ผ€์ผ๋ง์„, ํฐ ์ฃผ์ž… ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ง€์ˆ˜ ์Šค์ผ€์ผ๋ง์„ ์œ ๋ฐœํ•จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” 30์–ต์—์„œ 700์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋‹ค์–‘ํ•œ LLM์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ ๋Œ€์  ๊ณต๊ฒฉ, ํŠนํžˆ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…์ด LLM์˜ ์•ˆ์ „์„ฑ์„ ํฌ๊ฒŒ ์ €ํ•ดํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์ด ๊ณต๊ฒฉ ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋‹คํ•ญ์‹์—์„œ ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์Šคํ•€ ์œ ๋ฆฌ ์‹œ์Šคํ…œ์ด๋ผ๋Š” ๋ฌผ๋ฆฌ์  ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ LLM์˜ ์•ˆ์ „์„ฑ ํƒˆ์˜ฅ ํ˜„์ƒ์„ ์„ค๋ช…ํ•จ์œผ๋กœ์จ, LLM์˜ ๋™์ž‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ์ด๋ก ์  ํ‹€์€ ๋‹ค์–‘ํ•œ LLM, ๊ณต๊ฒฉ ๋ฐฉ๋ฒ•, ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์— ๊ฑธ์ณ ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์–ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์‹ค์ œ LLM ์‹œ์Šคํ…œ์— ์ง์ ‘ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์–ด ๊ธฐ๋ฒ•๋ณด๋‹ค๋Š” ๊ณต๊ฒฉ์˜ ๊ทผ๋ณธ์ ์ธ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์— ๋Œ€ํ•œ ์ด๋ก ์  ์ดํ•ด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ํ–ฅํ›„ ์‹ค์ œ์ ์ธ ๋ฐฉ์–ด ์ „๋žต ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘