Sign In

CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

Created by
  • Haebom
Category
Empty

์ €์ž

Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์ฐธ์กฐ ์ด๋ฏธ์ง€์™€ ์กฐ์ž‘ ํ…์ŠคํŠธ๋ฅผ ํ™œ์šฉํ•˜๋Š” ์กฐํ•ฉ ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰(CIR)์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ‘œํ˜„ ๊ณต๊ฐ„์˜ ๋‹จํŽธํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด CSMCIR์ด๋ผ๋Š” ํ†ตํ•ฉ ํ‘œํ˜„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•๋ก ์€ ๋ฉ€ํ‹ฐ๋ ˆ๋ฒจ Chain-of-Thought(MCoT) ํ”„๋กฌํ”„ํŒ… ์ „๋žต์„ ํ†ตํ•ด ๋ชฉํ‘œ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ํ˜ธํ™˜๋˜๋Š” ์บก์…˜์„ ์ƒ์„ฑํ•˜๊ณ , ๊ณต์œ  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์นญ ๋“€์–ผ ํƒ€์›Œ ๊ตฌ์กฐ๋กœ ์ฟผ๋ฆฌ ๋ฐ ๋ชฉํ‘œ ์ธ์ฝ”๋”ฉ์˜ ์ผ๊ด€์„ฑ์„ ํ™•๋ณดํ•˜๋ฉฐ, ๋™์ ์ธ ๋ฉ”๋ชจ๋ฆฌ ๋ฑ…ํฌ ์ „๋žต์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๋ถ€์ • ์ƒ˜ํ”Œ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. CSMCIR์€ ๋„ค ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ํ›ˆ๋ จ ํšจ์œจ์„ฑ๋„ ์šฐ์ˆ˜ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ฉ€ํ‹ฐ๋ ˆ๋ฒจ Chain-of-Thought(MCoT) ํ”„๋กฌํ”„ํŒ…์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋ชฉํ‘œ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋” ์ •ํ™•ํ•˜๊ณ  ์œ ์šฉํ•œ ์บก์…˜์„ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ํ‘œํ˜„ ๊ณต๊ฐ„์˜ ์ผ๊ด€์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋Œ€์นญ ๋“€์–ผ ํƒ€์›Œ ๊ตฌ์กฐ์™€ ๊ณต์œ  ํŒŒ๋ผ๋ฏธํ„ฐ Q-Former๋Š” ์ฟผ๋ฆฌ์™€ ๋ชฉํ‘œ ๊ฐ„์˜ ํŠน์ง• ํ‘œํ˜„์„ ์ผ์น˜์‹œ์ผœ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ์ •๋ ฌ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ด๊ณ  ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ๋ณต์žกํ•œ ์‹คํ—˜ ์„ค์ • ์—†์ด๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด CIR ๋ฐฉ๋ฒ•๋ก ์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ ๋ฉ”๋ชจ๋ฆฌ ๋ฑ…ํฌ ์ „๋žต์ด ๋ชจ๋ธ ์ƒํƒœ ๋ณ€ํ™”์™€ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ถ€์ • ์ƒ˜ํ”Œ์„ ์ œ๊ณตํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ํƒ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘