haebom
Sign In
Reasoning Models Struggle to Control their Chains of Thought
Created by
Haebom
Category
Empty
์ ์
Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ์ต์ ์ถ๋ก ๋ชจ๋ธ์ด ์ฌ๊ณ ๊ณผ์ (Chain-of-Thought, CoT)์ ์ผ๋ง๋ ์ ์ ์ดํ๋์ง๋ฅผ ํ๊ฐํ๋ CoT-Control ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๋ชจ๋ธ์ด CoT ์์์ ํน์ ์ ์ฝ ์กฐ๊ฑด์ ๋ฐ๋ฅด๋๋ก ์ ๋ํ์ ๋, ๋๋ถ๋ถ์ ๋ชจ๋ธ์ด ์ด๋ฅผ ์ ๋๋ก ๋ฐ๋ฅด์ง ๋ชปํ๋ฉฐ, ํนํ CoT ์ ์ด ๋ฅ๋ ฅ์ ์ต์ข ์ถ๋ ฅ ์ ์ด ๋ฅ๋ ฅ์ ๋นํด ํ์ ํ ๋ฎ์์ ๋ฐ๊ฒฌํ๋ค. ์ด๋ CoT ๋ชจ๋ํฐ๋ง์ ์ ๋ขฐ์ฑ์ ์ ์งํ๋ ๋ฐ ๊ธ์ ์ ์ธ ์ ํธ์ด์ง๋ง, ๋ฎ์ ์ ์ด ๋ฅ๋ ฅ์ ๊ทผ๋ณธ์ ์ธ ์์ธ์ ์์ง ๋ช ํํ ๊ท๋ช ๋์ง ์์๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ต์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฌ๊ณ ๊ณผ์ (CoT) ์์์ ํน์ ์ ์ฝ์ ์ค์ํ๋ ๋ฅ๋ ฅ์ด ๋ฎ์, CoT ๋ชจ๋ํฐ๋ง์ ์ ์ฌ์ ์ธ ์ทจ์ฝ์ ์ด ํฌ์ง ์์ ์ ์๋ค.
โข
CoT ์ ์ด ๋ฅ๋ ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋น๋กํ์ฌ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, RL ํ์ต์ด๋ ๋ฌธ์ ๋์ด๋ ์ฆ๊ฐ์ ๋ฐ๋ผ ๊ฐ์ํ๋ค.
โข
๋ฎ์ CoT ์ ์ด ๋ฅ๋ ฅ์ ์ ํํ ๋ฉ์ปค๋์ฆ์ด ์์ง ๋ฐํ์ง์ง ์์์ผ๋ฉฐ, ํฅํ ์ฐ๊ตฌ๋ฅผ ํตํด ์ด๋ฅผ ์ดํดํ๊ณ CoT ๋ชจ๋ํฐ๋ง์ ์ ๋ขฐ์ฑ์ ๋์ฑ ๋์ผ ํ์๊ฐ ์๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage