Sign In

Variational Visual Question Answering for Uncertainty-Aware Selective Prediction

Created by
  • Haebom
Category
Empty

์ €์ž

Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach

๐Ÿ’ก ๊ฐœ์š”

์ตœ๊ทผ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ VQA์™€ ๊ฐ™์€ ์ž‘์—…์—์„œ ๊ณผ์‹  ๋ฐ ํ™˜๊ฐ ํ˜„์ƒ์— ์ทจ์•ฝํ•œ ๋ฌธ์ œ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋ณ€๋ถ„ ๋ฒ ์ด์ฆˆ ์ถ”๋ก ์„ VQA์— ์ ์šฉํ•œ "Variational VQA"๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ๋ชจ๋ธ์ด ํ™•์‹ ์„ ๊ฐ€์งˆ ๋•Œ๋งŒ ์˜ˆ์ธกํ•˜๋„๋ก ํ•˜๋Š” ์„ ํƒ์  ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‚ฎ์€ ์˜ค์ฐจ ํ—ˆ์šฉ ๋ฒ”์œ„์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋”์šฑ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๋ฉฐ, ๋ณ€๋ถ„ ํ•™์Šต์ด ๋Œ€๊ทœ๋ชจ VLM์˜ ์•ˆ์ „์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ž„์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ณ€๋ถ„ ๋ฒ ์ด์ฆˆ ์ถ”๋ก ์ด VQA ์ž‘์—…์—์„œ ๋ชจ๋ธ์˜ ๊ณผ์‹  ๋ฐ ํ™˜๊ฐ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ , ์„ ํƒ์  ์˜ˆ์ธก์„ ํ†ตํ•ด ์‹ ๋ขฐ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ž„์„ ์ตœ์ดˆ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ "Variational VQA"๋Š” ํŠนํžˆ ๋‚ฎ์€ ์˜ค์ฐจ ํ—ˆ์šฉ ๋ฒ”์œ„์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๊ธฐ์กด ํ•™์Šต ๋ฐฉ์‹๋ณด๋‹ค ์•ˆ์ •์ ์ธ ์˜ˆ์ธก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์œ„ํ—˜ ํšŒํ”ผํ˜• ์„ ํƒ์ž(risk-averse selector)๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•œ ๋”์šฑ ๊ฒฌ๊ณ ํ•œ ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ VLM์„ ๋” ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜์ง€๋งŒ, ๋ณ€๋ถ„ ์ถ”๋ก ์˜ ๊ณ„์‚ฐ ๋น„์šฉ ๋ฐ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ์˜ ํšจ์œจ์„ฑ ์ตœ์ ํ™”๋Š” ์—ฌ์ „ํžˆ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘