haebom
Sign In
Aligning Forest and Trees in Images & Long Captions for Visually Grounded Understanding
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Byeongju Woo, Zilin Wang, Byeonghyun Pak, Sangwoo Mo, Stella X. Yu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ CLIP๊ณผ ๊ฐ์ ๊ธฐ์กด ๋น์ -์ธ์ด ๋ชจ๋ธ์ด ๊ธด ์บก์ ์ ์ธ๋ถ ์ฌํญ์ ๋์น๊ณ ์ฃผ๋ก ์ง๋ฐฐ์ ์ธ ์ฅ๋ฉด ์ ๋ณด์๋ง ์์กดํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋์์ต๋๋ค. ์ด๋ฅผ ์ํด CAFT (Cross-domain Alignment of Forests and Trees)๋ผ๋ ์๋ก์ด ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ฐํ์์ผ๋ฉฐ, ์ด๋ ์ด๋ฏธ์ง์ ์ง์ญ์ ์๋ฏธ์ ์ ์ญ์ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ ฌ์ ๊ณต๋์ผ๋ก ํ์ตํ์ฌ ๋ถ๋ถ-์ ์ฒด ๊ตฌ์ฑ์ผ๋ก ์ฅ๋ฉด์ ์ดํดํฉ๋๋ค. CAFT๋ 3000๋ง ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ํ์ต๋์ด 6๊ฐ์ง ์ฅ๋ฌธ ํ ์คํธ ๊ฒ์ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ด๋ฏธ์ง ๋ด ์ง์ญ์ ํ ์คํธ ์๋ฏธ๋ฅผ ๋ช ์์ ์ธ ์์ญ ๋จ์ ์ง๋ ํ์ต ์์ด๋ ์ฑ๊ณต์ ์ผ๋ก ํฌ์ฐฉํ๊ณ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
๊ธด ์บก์ ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ๋ถ๋ถ-์ ์ฒด ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
โข
ํ ์คํธ ์ธ์ฝ๋์ ๊ณ์ธต์ ๊ตฌ์กฐ์ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์กฐํ๋กญ๊ฒ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ๋ก ์ด ํจ๊ณผ์ ์์ ์ ์ฆํ์ต๋๋ค.
โข
๋ ผ๋ฌธ์์ ๋ช ์์ ์ผ๋ก ์ธ๊ธํ์ง๋ ์์์ง๋ง, ๋ค์ํ ์ ํ์ ์ด๋ฏธ์ง ๋ฐ ์บก์ ๋ฐ์ดํฐ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด๋ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์์ด ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage