haebom
Sign In
DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents
Created by
Haebom
Category
Empty
์ ์
Jiahao Zhao, Shaoxuan Xu, Zhongxiang Sun, Fengqi Zhu, Jingyang Ou, Yuling Shi, Chongxuan Li, Xiao Zhang, Jun Xu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด ๊ฒ์ ์์ด์ ํธ์ ์ฌ๊ฐํ ์ง์ฐ ์๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(dLLM)์ ํ์ฉํ๋ DLLM-Searcher ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. Agentic SFT์ Agentic VRPO๋ฅผ ํตํด dLLM์ ์ ๋ณด ํ์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๊ณ , P-ReAct๋ผ๋ ์๋ก์ด ์์ด์ ํธ ํจ๋ฌ๋ค์์ ๋์ ํ์ฌ ๋ณ๋ ฌ ์ถ๋ก ๋ฐ ํ๋์ ๊ฐ๋ฅํ๊ฒ ํจ์ผ๋ก์จ ์ง์ฐ ์๊ฐ์ ์ค์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, DLLM-Searcher๋ ๊ธฐ์กด LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์ ์ถ๋ก ์๋๋ฅผ ์ฝ 15% ํฅ์์์ผฐ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ์ฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(dLLM)์ ๋ณ๋ ฌ ๋์ฝ๋ฉ ๋ฅ๋ ฅ๊ณผ ์ ์ฐํ ์์ฑ ํจ๋ฌ๋ค์์ ํ์ฉํ์ฌ ๊ฒ์ ์์ด์ ํธ์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
Agentic SFT์ Agentic VRPO๋ฅผ ํตํ dLLM์ ์์ด์ ํธ ๋ฅ๋ ฅ ๊ฐํ๋ ์ ๋ณด ํ์ ๋ฐ ์ถ๋ก ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
โข
P-ReAct ํจ๋ฌ๋ค์์ ๊ธฐ์กด ReAct ๋ฐฉ์์ ์์ฐจ์ ์ฒ๋ฆฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ์ค์ง์ ์ธ ์ถ๋ก ์๋๋ฅผ ๋จ์ถํ๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ ํ dLLM์ ๊ทผ๋ณธ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์ฝ์ ๋ฐ์ ์ ์์ผ๋ฉฐ, ๋ณต์กํ๊ณ ๋ค์ํ ๋๊ตฌ ํธ์ถ ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ์ถ๊ฐ์ ์ผ๋ก ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage