Sign In

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Tianyang Han, Hengyu Shi, Junjie Hu, Xu Yang, Zhiling Wang, Junhao Su

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ช…์‹œ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์„ ํ™œ์šฉํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ๊ฒฐ๊ณผ์˜ ์ •ํ™•์„ฑ๋งŒ์œผ๋กœ๋Š” ์ถ”๋ก  ๊ณผ์ •์˜ ์ถฉ์‹ค์„ฑ, ์‹ ๋ขฐ์„ฑ, ์œ ์šฉ์„ฑ์„ ์ œ๋Œ€๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์—†๋‹ค๋Š” ์ ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” 'TraceLift'๋ผ๋Š” ์ƒˆ๋กœ์šด ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. TraceLift๋Š” ์ถ”๋ก  ๊ณผ์ •์„ ์‹คํ–‰๊ธฐ๊ฐ€ ์†Œ๋น„ํ•  ์ˆ˜ ์žˆ๋Š” ์ค‘๊ฐ„ ์‚ฐ๋ฌผ๋กœ ์ทจ๊ธ‰ํ•˜๋ฉฐ, ์‹คํ–‰๊ธฐ ๊ธฐ๋ฐ˜ ๋ณด์ƒ์„ ํ†ตํ•ด ์ถ”๋ก  ๊ณผ์ •์˜ ํ’ˆ์งˆ๊ณผ ์œ ์šฉ์„ฑ์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ถ”๋ก  ๊ณผ์ •์˜ ์œ ์šฉ์„ฑ ํ‰๊ฐ€์˜ ์ค‘์š”์„ฑ: ์ตœ์ข… ๊ฒฐ๊ณผ์˜ ์ •ํ™•์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ถ”๋ก  ๊ณผ์ •์ด ํ›„์† ๋ชจ๋ธ์ด๋‚˜ ์‹œ์Šคํ…œ์— ์–ผ๋งˆ๋‚˜ ์œ ์šฉํ•˜๊ฒŒ ์ž‘์šฉํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด LLM์˜ ์ง„์ •ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
โ€ข
'์ด์œ ๊ฐ€ ํ‹€๋ ธ์–ด๋„ ์ •๋‹ต' ๋ฌธ์ œ ํ•ด๊ฒฐ: TraceLift๋Š” ์˜ฌ๋ฐ”๋ฅธ ๊ฒฐ๋ก ์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•œ ๊ณผ์ • ์ž์ฒด์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ, ์ž˜๋ชป๋œ ์ด์œ ๋กœ ์ •๋‹ต์„ ๋งžํžˆ๋Š” ๊ฒฝ์šฐ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ์ถ”๋ก  ๊ณผ์ •์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ ํ•„์š”์„ฑ: ๋ณธ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆํ•˜๋Š” TRACELIFT-GROUPS์™€ ๊ฐ™์ด, ๋‹ค์–‘ํ•œ ์˜ค๋ฅ˜๋ฅผ ํฌํ•จํ•˜๋ฉด์„œ๋„ ๊ด€๋ จ์„ฑ์„ ์œ ์ง€ํ•˜๋Š” '์ด์œ  ์ค‘์‹ฌ'์˜ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์ด ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ ์—ฐ๊ตฌ์— ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ /ํ–ฅํ›„ ๊ณผ์ œ: ๋ณธ ์—ฐ๊ตฌ๋Š” ์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™ ๋ฌธ์ œ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์ถ”๋ก  ๊ณผ์ •์˜ ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ์ถ”๋ก  ๋Œ€์ƒ์ด ๋‹ฌ๋ผ์งˆ ๊ฒฝ์šฐ TraceLift์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹คํ–‰๊ธฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ž์ฒด๊ฐ€ ์ถ”๋ก  ํ•™์Šต ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋„ ๊ณ ๋ ค๋  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘