Sign In

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ์˜ ์žฅ๊ธฐ์ ์ธ ๋ณด์ƒ ํ• ๋‹น ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Pivot-Based Credit Assignment (PiCA)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ณด์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. PiCA๋Š” ๊ฒ€์ƒ‰ ๊ถค์ ์„ ๋ˆ„์ ๋œ ๊ฒ€์ƒ‰ ์ง„ํ–‰ ๊ณผ์ •์˜ ์ˆœ์ฐจ์  ๊ณผ์ •์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•˜๊ณ , ์ž ์žฌ์  ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์„ฑํ˜•(PBRS)์„ ํ™œ์šฉํ•˜์—ฌ ์—ญ์‚ฌ์  ๋งฅ๋ฝ์— ๋”ฐ๋ผ ์„ฑ๊ณต ํ™•๋ฅ ์— ์˜์กดํ•˜๋Š” ํ”„๋กœ์„ธ์Šค ๋ณด์ƒ์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข… ๊ณผ์ œ ๋ชฉํ‘œ์™€ ์—ฐ๊ณ„๋œ ํ’๋ถ€ํ•˜๊ณ , ํ”ผ๋ฒ—์„ ์ธ์ง€ํ•˜๋ฉฐ, ๊ถค์  ์˜์กด์ ์ธ ๊ฐ€์ด๋˜์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ์˜ ์žฅ๊ธฐ์ ์ธ ๋ณด์ƒ ํ• ๋‹น ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ”ผ๋ฒ— ์Šคํ…์„ ์‹๋ณ„ํ•˜๊ณ  ์ด๋ฅผ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ํ™œ์šฉํ•จ์œผ๋กœ์จ, ๋ณด๋‹ค ํšจ๊ณผ์ ์ธ ํ•™์Šต ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ PiCA ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ, ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋” ๋ณต์žกํ•œ ๊ฒ€์ƒ‰ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ PiCA์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ํƒ์ƒ‰ํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘