Sign In

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์˜คํžˆ๋ ค ์ž‘๊ณ  ๋œ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ๋ชจ๋ธ(SLM)์„ ํ™œ์šฉํ•˜์—ฌ LLM์˜ ๊ณ ๊ฐ€์น˜ ์ถ”๋ก  ์ˆœ๊ฐ„์„ ํฌ์ฐฉํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ LightReasoner๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. LightReasoner๋Š” ์ „๋ฌธ๊ฐ€-์•„๋งˆ์ถ”์–ด ๋ชจ๋ธ ๊ฐ„์˜ ํ–‰๋™ ์ฐจ์ด๋ฅผ ์ด์šฉํ•ด ํ•ต์‹ฌ ์ถ”๋ก  ์ˆœ๊ฐ„์„ ์„ ๋ณ„ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด LLM์˜ ๊ฐ•์ ์„ ์ฆํญ์‹œํ‚ค๋Š” ๊ฐ๋… ํ•™์Šต ์˜ˆ์ œ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ 7๊ฐœ์˜ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ •ํ™•๋„๋ฅผ ์ตœ๋Œ€ 28.1% ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ๋„, ์‹œ๊ฐ„, ์ƒ˜ํ”Œ๋ง ๋ฌธ์ œ, ํŠœ๋‹ ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์—ฌ LLM ์ถ”๋ก ์˜ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
SLM์„ ํ™œ์šฉํ•˜์—ฌ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๊ฐ๋… ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ SFT ๋ฐฉ์‹ ๋Œ€๋น„ ์ž์› ํšจ์œจ์„ฑ(์‹œ๊ฐ„, ๋ฐ์ดํ„ฐ, ๊ณ„์‚ฐ๋Ÿ‰)์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์ œ ์ •๋‹ต ๋ผ๋ฒจ ์—†์ด๋„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ๋Š” ์ˆ˜ํ•™์  ์ถ”๋ก ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์ถ”๋ก  ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘