Sign In

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

Created by
  • Haebom
Category
Empty

์ €์ž

Xuying Ning, Dongqi Fu, Tianxin Wei, Mengting Ai, Jiaru Zou, Ting-Wei Li, Hanghang Tong, Yada Zhu, Hendrik Hamann, Jingrui He

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด์˜ ๋‹จ์ˆœํ•œ ์งˆ์˜์‘๋‹ต ํ˜•์‹์„ ๋„˜์–ด์„  ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„, ๊ต์ฐจ ๋ชจ๋‹ฌ, ์ง€์‹ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ์œ„ํ•œ ์ฐจ์„ธ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ๊ฒ€์ƒ‰(MM-RAG)์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ MC-Search๋ผ๋Š” ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MC-Search๋Š” 5๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ์ถ”๋ก  ๊ตฌ์กฐ๋ฅผ ์•„์šฐ๋ฅด๋Š” 3,333๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์˜ˆ์‹œ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ„๊ณผ๋˜์—ˆ๋˜ ์ ์‘์  ๊ณ„ํš ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ Search-Align ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์˜คํ”ˆ์†Œ์Šค MLLM์˜ ๊ณ„ํš ๋ฐ ๊ฒ€์ƒ‰ ์ถฉ์‹ค๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋ณต์žกํ•œ ์ถ”๋ก  ๊ณผ์ •์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ์ถ”๋ก  ๊ณผ์ •์˜ ์ •ํ™•์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์ฒด์ ์ธ ์ง€ํ‘œ๋“ค์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ์™€ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์˜คํ”ˆ์†Œ์Šค MLLM์˜ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ๋ฐ ๊ต์ฐจ ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ์‹ค์งˆ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
MC-Search ๋ฒค์น˜๋งˆํฌ์˜ ๊ทœ๋ชจ๋ฅผ ๋”์šฑ ํ™•์žฅํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ํŒจํ„ด์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํฌํ•จ์‹œํ‚ค๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘