Sign In

Disentangling generalization and memorization in large language models using chess

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Leonard S. Pleiss, Maximilian Schiffer, Robert K. von Weizsaecker

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์„ฑ๋Šฅ์ด ๋‹จ์ˆœ ์•”๊ธฐ์ธ์ง€ ํ˜น์€ ์ง„์ •ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์ธ์ง€๋ฅผ ๋ช…ํ™•ํžˆ ํ•˜๊ณ ์ž ์ฒด์Šค๋ฅผ ํ†ต์ œ๋œ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฒด์Šค์˜ ๊ตฌ์กฐ์™€ ์—”์ง„ ํ‰๊ฐ€๋ฅผ ์ด์šฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ช…์‹œ์ ์ธ ์ •๋ณด ์—†์ด๋„ ๊ด€๋ จ ์‚ฌ์ „ ์ •๋ณด์˜ ๋ฐ€๋„์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜๋œ ํฌ์ง€์…˜์˜ ๋ถ„๋ฅ˜ ์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLM์˜ ์ผ๋ฐ˜ํ™”์™€ ์•”๊ธฐ ๋Šฅ๋ ฅ์„ ๋ถ„๋ฆฌํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๊ณ , ํŠนํžˆ ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ์„ฑ๋Šฅ์€ ๊ด€๋ จ ์‚ฌ์ „ ์ •๋ณด์˜ ๋ฐ€๋„๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์ผ๊ด€๋˜๊ฒŒ ์ €ํ•˜๋˜๋ฉฐ, ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ๊ฑฐ์˜ ์—†๋Š” ๊ฒฝ์šฐ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ๋ฌด์ž‘์œ„ ์ˆ˜์ค€์œผ๋กœ ํšŒ๊ท€ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ตœ์‹  ๋ชจ๋ธ๋“ค์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด์ง€๋งŒ, ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ํฌ์†Œํ•œ ํƒœ์Šคํฌ์—์„œ๋Š” ๊ฐœ์„  ์†๋„๊ฐ€ ํ˜„์ €ํžˆ ๋А๋ ค์ง€๋ฉฐ, ์ถ”๋ก  ์ฆ๊ฐ• ๊ธฐ๋ฒ• ๋˜ํ•œ ์‚ฌ์ „ ์ •๋ณด ๋ถ€์กฑ ์‹œ ์ƒ๋Œ€์ ์ธ ์ด์ ์ด ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” LLM์ด ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ์—†์„ ๋•Œ ๊ฒฌ๊ณ ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๊ทœ๋ชจ ํ™•๋Œ€ ์ด์ƒ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ์ฒด๊ณ„์ ์ธ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์ฒด์Šค๋ผ๋Š” ํŠน์ • ์˜์—ญ์„ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ๋กœ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฏ€๋กœ, ์ผ๋ฐ˜์ ์ธ LLM์˜ ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ผ๋ฐ˜ํ™”์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘