Sign In

Learning to Remember, Learn, and Forget in Attention-Based Models

Created by
  • Haebom
Category
Empty

์ €์ž

Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(ICL)์ด ๊ณ ์ •๋œ ์šฉ๋Ÿ‰๊ณผ ๊ฐ„์„ญ ๋ฌธ์ œ๋ฅผ ๊ฒช๋Š” ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, ICL์„ ์ง€์† ํ•™์Šต ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•˜๊ณ  ๋ฒ ์ด์ฆˆ ๋ฉ”ํƒ€ํ”Œ๋ผ์Šคํ‹ฑ์„ฑ์„ ํ™œ์šฉํ•œ ์ƒˆ๋กœ์šด ์ž์ฒด ์ฃผ์˜ ๋ชจ๋ธ์ธ Palimpsa๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Palimpsa๋Š” ๊ฐ ์ฃผ์˜ ์ƒํƒœ์˜ ๊ฐ€์†Œ์„ฑ์„ ๋ˆ„์ ๋œ ์ง€์‹์„ ํฌ์ฐฉํ•˜๋Š” ์‚ฌ์ „ ๋ถ„ํฌ์— ๊ธฐ๋ฐ˜ํ•œ ์ค‘์š”๋„ ์ƒํƒœ์— ์—ฐ๊ฒฐํ•จ์œผ๋กœ์จ, ๊ธฐ์กด ๊ฒŒ์ดํŠธ ์„ ํ˜• ์ฃผ์˜ ๋ชจ๋ธ๋“ค์„ ํŠน์ • ์•„ํ‚คํ…์ฒ˜ ๋ฐ ์‚ฌํ›„ ๊ทผ์‚ฌ์น˜๋กœ ํ†ตํ•ฉํ•˜๊ณ  Mamba2๋ฅผ ๋ง๊ฐ์ด ์ง€๋ฐฐํ•˜๋Š” ํŠน์ˆ˜ํ•œ ๊ฒฝ์šฐ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
Palimpsa ๋ชจ๋ธ์€ ๊ธฐ์กด ๋น„๋ฉ”ํƒ€ํ”Œ๋ผ์Šคํ‹ฑ ๋ชจ๋ธ์„ ๋ฉ”ํƒ€ํ”Œ๋ผ์Šคํ‹ฑ ๋ชจ๋ธ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
Palimpsa๋Š” ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ๊ธฐ์–ต(MQAR) ๋ฒค์น˜๋งˆํฌ์™€ ์ƒ์‹ ์ถ”๋ก  ๊ณผ์ œ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” Palimpsa์˜ ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋”์šฑ ๋ฐœ์ „์‹œ์ผœ, ๋‹ค์–‘ํ•œ ์ง€์† ํ•™์Šต ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์šฉํ•˜๊ณ  ์‹ค์ œ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๐Ÿ‘