Sign In

ORCA: An Agentic Reasoning Framework for Hallucination and Adversarial Robustness in Vision-Language Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian

๐Ÿ’ก ๊ฐœ์š”

๋Œ€๊ทœ๋ชจ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(LVLM)์€ ๊ฐ•๋ ฅํ•œ ๋‹ค์ค‘ ๋ชจ๋“œ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ๋‚ด์žฌ์  ์˜ค๋ฅ˜๋กœ ์ธํ•œ ํ™˜๊ฐ ๋ฐ ์™ธ๋ถ€ ๊ณต๊ฒฉ์œผ๋กœ ์ธํ•œ ์ ๋Œ€์  ์ทจ์•ฝ์„ฑ์— ๋…ธ์ถœ๋˜์–ด ์‹ ๋ขฐ์„ฑ์„ ์ €ํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ORCA๋ผ๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋Š” ์†Œ๊ทœ๋ชจ ๋น„์ „ ๋ชจ๋ธ๋“ค์„ ํ™œ์šฉํ•˜์—ฌ ์ถ”๋ก  ์‹œ ๊ตฌ์กฐํ™”๋œ ์ถ”๋ก ์„ ํ†ตํ•ด ์‚ฌ์ „ ํ•™์Šต๋œ LVLM์˜ ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ๊ณผ ์ ๋Œ€์  ๊ฐ•๊ฑด์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ORCA๋Š” ๋ชจ๋ธ ๋‚ด๋ถ€ ์ ‘๊ทผ์ด๋‚˜ ์žฌํ•™์Šต ์—†์ด ๊ด€์ฐฐ-์ถ”๋ก -๋น„ํŒ-์‹คํ–‰ ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ์ž‘๋™ํ•˜๋ฉฐ, ์ค‘๊ฐ„ ์ถ”๋ก  ๊ณผ์ •์„ ์ €์žฅํ•˜์—ฌ ๊ฐ์‚ฌ ๊ฐ€๋Šฅํ•œ ์˜์‚ฌ๊ฒฐ์ •์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ™˜๊ฐ ์™„ํ™” ๋ฐ ์ ๋Œ€์  ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ: ORCA๋Š” ๋ช…์‹œ์ ์ธ ์ ๋Œ€์  ํ›ˆ๋ จ์ด๋‚˜ ๋ฐฉ์–ด ๊ธฐ๋ฒ• ์—†์ด๋„ ๊ฐ์ฒด ์ˆ˜์ค€์˜ ํ™˜๊ฐ์„ ์ค„์ด๊ณ  ์ ๋Œ€์  ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์—ฌ LVLM์˜ ์‹ ๋ขฐ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
ํšจ์œจ์ ์ธ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ถ”๋ก : ์†Œ๊ทœ๋ชจ ๋น„์ „ ๋ชจ๋ธ๊ณผ "Observe-Reason-Critique-Act" ๋ฃจํ”„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ LVLM์„ ์žฌํ•™์Šตํ•˜๊ฑฐ๋‚˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ์— ์ ‘๊ทผํ•˜์ง€ ์•Š๊ณ ๋„ ํšจ๊ณผ์ ์ธ ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ฐ์‚ฌ ๊ฐ€๋Šฅํ•œ ์˜์‚ฌ๊ฒฐ์ • ์ง€์›: ์ค‘๊ฐ„ ์ถ”๋ก  ๊ณผ์ •์„ ์ €์žฅํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ๊ฒฐ์ • ๊ณผ์ •์„ ์ถ”์ ํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ : ๋ณธ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ๊ฐ์ฒด ์ˆ˜์ค€์˜ ํ™˜๊ฐ ์™„ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ์œ ํ˜•์˜ ํ™˜๊ฐ์ด๋‚˜ ๋” ๋ณต์žกํ•œ ์ ๋Œ€์  ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ORCA์˜ ํšจ๊ณผ๋Š” ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ถ”๋ก  ๊ณผ์ •์— ์‚ฌ์šฉ๋˜๋Š” ๋น„์ „ ๋„๊ตฌ๋“ค์˜ ์„ฑ๋Šฅ ๋ฐ ํšจ์œจ์„ฑ ์ตœ์ ํ™”๊ฐ€ ํ–ฅํ›„ ๊ณผ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘