Sign In

HyPER: Bridging Exploration and Exploitation for Scalable LLM Reasoning with Hypothesis Path Expansion and Reduction

Created by
  • Haebom
Category
Empty

์ €์ž

Shengxuan Qiu, Haochen Huang, Shuzhang Zhong, Pengfei Zuo, Meng Li

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ํƒ์ƒ‰(exploration)๊ณผ ํ™œ์šฉ(exploitation)์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์ธ HyPER๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. HyPER๋Š” ๊ฐ€์„ค ๊ฒฝ๋กœ ํ™•์‚ฐ ๋ฐ ์ถ•์†Œ ์ œ์–ด ๋ฌธ์ œ๋กœ ์ถ”๋ก ์„ ์žฌ์ •์˜ํ•˜๊ณ , ๋™์ ์ธ ์˜จ๋ผ์ธ ์ œ์–ด ์ •์ฑ…์„ ํ†ตํ•ด ๊ณ ์ •๋œ ์—ฐ์‚ฐ ์˜ˆ์‚ฐ ๋‚ด์—์„œ ๊ณ„์‚ฐ๋Ÿ‰์„ ํšจ์œจ์ ์œผ๋กœ ์žฌ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, HyPER๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์ •ํ™•๋„-์—ฐ์‚ฐ๋Ÿ‰ ๊ท ํ˜•์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ณ  ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ์ถ”๋ก  ์‹œ ํƒ์ƒ‰๊ณผ ํ™œ์šฉ์˜ ๋™์ ์ธ ๊ท ํ˜• ์กฐ์ ˆ์ด ์—ฐ์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•๋„ ํ–ฅ์ƒ์— ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
HyPER๋Š” ํ›ˆ๋ จ ์—†์ด๋„ ํšจ์œจ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํŠนํžˆ ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ๊ฐˆ๋ผ์ง€๋Š” ์ถ”๋ก  ๊ฒฝ๋กœ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ํŠน์ • ๋ชจ๋ธ ๊ตฌ์กฐ(Mixture-of-Experts) ๋ฐ ์—ฐ์‚ฐ ์˜ˆ์‚ฐ ์ œ์•ฝ ํ•˜์—์„œ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ผ๋ฐ˜์ ์ธ LLM ๋ฐ ๋‹ค์–‘ํ•œ ์—ฐ์‚ฐ ์ œ์•ฝ ์กฐ๊ฑด์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘