Sign In

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Created by
  • Haebom
Category
Empty

์ €์ž

Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ 83์–ต ๊ฐœ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฐ•๋ ฅํ•œ Mixture-of-Experts (MoE) ๊ธฐ๋ฐ˜ ์‹œ๊ณ„์—ด ๊ธฐ์ดˆ ๋ชจ๋ธ์ธ Timer-S1์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์‹œ๊ณ„์—ด ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ๋ฐ์ดํ„ฐ์…‹, ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ ์„ธ ๊ฐ€์ง€ ์ฐจ์›์—์„œ ์ง๋ ฌ ์Šค์ผ€์ผ๋ง(Serial Scaling)์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. Timer-S1์€ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์˜ ๋ณธ์งˆ์ ์ธ ์ง๋ ฌ์„ฑ์„ ๋ฐ˜์˜ํ•˜๋Š” ์ง๋ ฌ ํ† ํฐ ์˜ˆ์ธก(Serial-Token Prediction, STP)์ด๋ผ๋Š” ์ผ๋ฐ˜์ ์ธ ํ›ˆ๋ จ ๋ชฉํ‘œ๋ฅผ ์œ„ํ•ด ํฌ์†Œํ•œ TimeMoE ๋ธ”๋ก๊ณผ ์ผ๋ฐ˜์ ์ธ TimeSTP ๋ธ”๋ก์„ ํ†ตํ•ฉํ•˜์—ฌ ์žฅ๊ธฐ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์˜ค๋ฅ˜ ๋ˆ„์ ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์‹œ๊ณ„์—ด ์˜ˆ์ธก์„ ์œ„ํ•œ ํšจ์œจ์ ์ธ MoE ๊ธฐ๋ฐ˜ ๊ธฐ์ดˆ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ์ง๋ ฌ ํ† ํฐ ์˜ˆ์ธก(STP) ํ›ˆ๋ จ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ ๊ธฐ์กด ๋ชจ๋ธ์˜ ํ™•์žฅ์„ฑ ๋ฐ ์žฅ๊ธฐ ์˜ˆ์ธก ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
1์กฐ ๊ฐœ์˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹(TimeBench)๊ณผ ์„ธ์‹ฌํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํŽธํ–ฅ์„ ์ค„์ด๊ณ  ์˜ˆ์ธก ํ’ˆ์งˆ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ์žฅ๊ธฐ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ๋„ ๋กค๋ง(rolling) ์ถ”๋ก  ๋ฐฉ์‹์˜ ๋น„์šฉ๊ณผ ์˜ค๋ฅ˜ ๋ˆ„์  ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ๊ฐ€ ๋งค์šฐ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์ด ๋†’์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ๋ฐฐํฌ ์‹œ ์ด๋Ÿฌํ•œ ์ œ์•ฝ ์‚ฌํ•ญ์„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘