haebom
Sign In
Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets
Created by
Haebom
Category
Empty
์ ์
Bo Xue, Yunchong Song, Fanghao Shao, Xuekai Zhu, Lin Chen, Luoyi Fu, Xinbing Wang, Zhouhan Lin
๐ก ๊ฐ์
๊ธฐ์กด์ ๋จ์ด ๋จ์ ์๋ํ๊ท ์ธ์ด ๋ชจ๋ธ์ ๊ณ ์ ๋ ์ดํ ์งํฉ์ ์ฌ์ฉํ๋ฉฐ ํธ๋ฆฌ ๊ตฌ์กฐ์ ์ํ ๊ณต๊ฐ์ ๊ฐ์ง์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ๊ฐ๋ณ์ ์ธ ๊ธธ์ด์ ํ ์คํธ ์คํฌ์ ํ์ฉํ์ฌ ๋์ ์ด๊ณ DAG(Directed Acyclic Graph) ๊ตฌ์กฐ์ ์ํ ๊ณต๊ฐ์ ๊ฐ๋ ์๋ก์ด ์คํฌ ์์ฑ ํ๋ ์์ํฌ์ธ Flow of SpanS(FoSs)๋ฅผ ์ ์ํฉ๋๋ค. FoSs๋ Generative Flow Networks(GFlowNets)๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ์คํฌ ์กฐํฉ ๊ฒฝ๋ก๋ฅผ ํ์ํ๊ณ ํํ๋ ฅ์ ๋์ด๋ฉฐ, ์ด๋ฅผ ํตํด ํ ์คํธ ์์ฑ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋์ ์คํฌ ์ดํ ๋ฐ DAG ์ํ ๊ณต๊ฐ ๋ชจ๋ธ๋ง
: ํ ์คํธ๋ฅผ ๋ค์ํ ๊ธธ์ด์ ์คํฌ์ผ๋ก ์ ์ฐํ๊ฒ ๋ถํ ํ์ฌ ๊ธฐ์กด์ ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋์ด์ DAG ๊ตฌ์กฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํจ์ผ๋ก์จ, ์ธ์ด ๋ชจ๋ธ์ ํ์ ๋ฅ๋ ฅ์ ํ์ฅํ๊ณ ํํ๋ ฅ์ ์ฆ์ง์ํต๋๋ค.
โข
GFlowNets์ ์๋ก์ด ์ ์ฉ ๋ฐ ์ฑ๋ฅ ํฅ์
: GFlowNets๋ฅผ ์คํฌ ์์ฑ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ์ฌ, ํ ์คํธ ์์ฑ ์์ ์์ MAUVE ์ ์๋ฅผ ์ต๋ 12.5% ํฅ์์ํค๊ณ ์ง์ ์ง์ฝ์ ๊ณผ์ ์์๋ 3.5%์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
โข
ํ์ฅ์ฑ ๋ฐ ๊ฒฌ๊ณ ์ฑ
: ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ ์, ๊ฒ์ ์ฝํผ์ค์ ํ๋ถํจ ์ฆ๊ฐ์ ๋ฐ๋ผ FoSs์ ์ด์ ์ด ์ ์ง๋๋ฉฐ, ๊ฐ๋ ฅํ baseline ๋ชจ๋ธ๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ํ์ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
โข
์คํฌ ๋ถํ ์ ๋ณต์ก์ฑ ๋ฐ ๊ณ์ฐ ๋น์ฉ
: ์คํฌ ๋ถํ ๊ณผ์ ์ ๋ณต์ก์ฑ๊ณผ ์ด์ ๋ฐ๋ฅธ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ๋ค์ํ ์ธ์ด ๋ฐ ๋๋ฉ์ธ์์์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage