haebom
Sign In
CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval
Created by
Haebom
Category
Empty
์ ์
Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ์ฐธ์กฐ ์ด๋ฏธ์ง์ ์กฐ์ ํ ์คํธ๋ฅผ ํ์ฉํ๋ ์กฐํฉ ์ด๋ฏธ์ง ๊ฒ์(CIR)์์ ๋ฐ์ํ๋ ํํ ๊ณต๊ฐ์ ๋จํธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด CSMCIR์ด๋ผ๋ ํตํฉ ํํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ ๋ฉํฐ๋ ๋ฒจ Chain-of-Thought(MCoT) ํ๋กฌํํ ์ ๋ต์ ํตํด ๋ชฉํ ์ด๋ฏธ์ง์ ๋ํ ์๋ฏธ๋ก ์ ์ผ๋ก ํธํ๋๋ ์บก์ ์ ์์ฑํ๊ณ , ๊ณต์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๋์นญ ๋์ผ ํ์ ๊ตฌ์กฐ๋ก ์ฟผ๋ฆฌ ๋ฐ ๋ชฉํ ์ธ์ฝ๋ฉ์ ์ผ๊ด์ฑ์ ํ๋ณดํ๋ฉฐ, ๋์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ ์ ๋ต์ผ๋ก ๊ณ ํ์ง์ ๋ถ์ ์ํ์ ์ ๊ณตํฉ๋๋ค. CSMCIR์ ๋ค ๊ฐ์ง ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ํ๋ จ ํจ์จ์ฑ๋ ์ฐ์ํจ์ ์ ์ฆํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ฉํฐ๋ ๋ฒจ Chain-of-Thought(MCoT) ํ๋กฌํํ ์ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ชฉํ ์ด๋ฏธ์ง์ ๋ํ ๋ ์ ํํ๊ณ ์ ์ฉํ ์บก์ ์ ์์ฑํจ์ผ๋ก์จ ํํ ๊ณต๊ฐ์ ์ผ๊ด์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
โข
๋์นญ ๋์ผ ํ์ ๊ตฌ์กฐ์ ๊ณต์ ํ๋ผ๋ฏธํฐ Q-Former๋ ์ฟผ๋ฆฌ์ ๋ชฉํ ๊ฐ์ ํน์ง ํํ์ ์ผ์น์์ผ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ ๋ ฌ ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๊ณ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๋ณต์กํ ์คํ ์ค์ ์์ด๋ ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด CIR ๋ฐฉ๋ฒ๋ก ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ์ ์๋ ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ ์ ๋ต์ด ๋ชจ๋ธ ์ํ ๋ณํ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๋ถ์ ์ํ์ ์ ๊ณตํ๋ ๋ฉ์ปค๋์ฆ์ ๋ํ ์ถ๊ฐ์ ์ธ ํ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage