haebom
Sign In
CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models
Created by
Haebom
Category
Empty
์ ์
Zhehao Tan, Yihan Jiao, Dan Yang, Junjie Wang, Duolin Sun, Jie Feng, Xidong Wang, Lei Liu, Yue Shen, Jian Wang, Jinjie Gu
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG) ๋ชจ๋ธ์์ ๋งฅ๋ฝ ์ถฉ์ค๋์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ ์๋ก์ด ๊ฐํ ํ์ต(RL) ๋ฐฉ๋ฒ๋ก ์ธ CTRL-RAG๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด RAG RL ๋ฐฉ๋ฒ์ด ์ธ๋ถ ๋ณด์์ ์์กดํ์ฌ ๋ฌธ์ ์ถฉ์ค๋ ํ๊ฐ์ ์คํจํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, CTRL-RAG๋ ํ๋กฌํํธ์ ์ฆ๊ฑฐ๊ฐ ์๋ ํ๋กฌํํธ์ ๋ํ ์๋ต์ ๋ก๊ทธ ๊ฐ๋ฅ์ฑ ์ฐจ์ด๋ฅผ ์ง์ ์ต์ ํํ๋ ๋์กฐ์ ๊ฐ๋ฅ์ฑ ๋ณด์(CLR)์ ๋์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ด๋ จ ์ฆ๊ฑฐ๋ฅผ ๋ ์ ์ถ์ถํ๊ณ ํน์ ๋งฅ๋ฝ์ ๊ธฐ๋ฐํ ๋ ์์ ๊ฐ์ ๋์ผ ์ ์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
RAG ๋ชจ๋ธ์ ๋งฅ๋ฝ ์ถฉ์ค๋ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ์๋ก์ด ๋ด๋ถ-์ธ๋ถ ํ์ด๋ธ๋ฆฌ๋ ๋ณด์ ํ๋ ์์ํฌ ์ ์.
โข
๋์กฐ์ ๊ฐ๋ฅ์ฑ ๋ณด์(CLR)์ ํตํด ์ธ๋ถ ๋ณด์ ์์ด๋ ๋ชจ๋ธ์ ์์ฒด์ ์ธ ๋งฅ๋ฝ ๊ธฐ๋ฐ ์๋ต ์์ฑ ๋ฅ๋ ฅ ๊ฐํ.
โข
๋ค์ํ ๋ฒค์น๋งํฌ์์ ์คํ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ์ ์ฆํ์ฌ RAG ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ๊ณผ ์ ํ์ฑ ํฅ์์ ๊ธฐ์ฌ.
โข
CLR์ด ๋ด๋ถ ๋ณด์์ผ๋ก ์์ฉํ์ง๋ง, ์ฅ๊ธฐ์ ์ธ ์ฑ๋ฅ ์์ ์ฑ ๋ฐ ์ ์ฌ์ ๋ชจ๋ธ ๋ถ๊ดด ๋ฐฉ์ง๋ฅผ ์ํ ์ถ๊ฐ์ ์ธ ์ธ๋ถ ๋ณด์๊ณผ์ ์๋์ง ๋๋ ์์ฒด์ ์ธ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์.
PDF ๋ณด๊ธฐ
Made with Slashpage