Sign In

Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Guangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(LVLM)์˜ ์˜๋ฃŒ ๋ถ„์•ผ ์ ์šฉ์—์„œ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์ œ๊ธฐํ•˜๋ฉฐ, ํŠนํžˆ ํ‰๋ถ€ X์„ (CXR) ํŒ๋…์—์„œ ๋ชจ๋ธ์ด ์‘๋‹ต์˜ ๊ทผ๊ฑฐ๋ฅผ ์‹œ๊ฐ์  ์ฆ๊ฑฐ์— ์ถฉ์‹คํ•˜๊ฒŒ ์—ฐ๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ์ ์„ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์‹œ๊ฐ ์†์„ฑ(attribution) ๋ฐฉ๋ฒ•๋“ค์ด ๋ชจ๋ธ์˜ ์˜์‚ฌ ๊ฒฐ์ •์— ์‹ค์ œ๋กœ ๊ธฐ์—ฌํ•˜๋Š” ์‹œ๊ฐ์  ์ฆ๊ฑฐ๋ฅผ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์—ฐ๊ตฌ์ง„์€ ๋ฐ˜์‚ฌ์‹ค์  ํŽธ์ง‘์„ ํ†ตํ•ด ์ „๋ฌธ๊ฐ€ ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ์˜์—ญ์ด ๋ชจ๋ธ ์˜ˆ์ธก์— ์ธ๊ณผ์ ์œผ๋กœ ์ฑ…์ž„์ด ์žˆ์Œ์„ ํ™•์ธํ•œ CXR-VQA ์ƒ˜ํ”Œ๋งŒ์„ ์œ ์ง€ํ•˜๋Š” ์ธ๊ณผ์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์†์„ฑ ๋ฐฉ๋ฒ•๋“ค์ด LVLM์ด ์‚ฌ์šฉํ•˜๋Š” ์ฆ๊ฑฐ๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ์‹คํŒจํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ์ž„์ƒ์ ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ํ•ด๋ถ€ํ•™์  ์˜์—ญ์„ ์‹๋ณ„ํ•˜๊ณ  ๋ชจ๋ธ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ์ธ๊ณผ์  ํšจ๊ณผ๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐœ๋… ๊ธฐ๋ฐ˜ ์†์„ฑ ๋ฐฉ๋ฒ•์ธ MedFocus๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LVLM์˜ ์˜๋ฃŒ ๋ถ„์•ผ ์ ์šฉ์—์„œ ์‹œ๊ฐ์  ์ฆ๊ฑฐ์— ๋Œ€ํ•œ ์ถฉ์‹คํ•œ ๊ทผ๊ฑฐ ์ œ์‹œ ๋Šฅ๋ ฅ์€ ์ž„์ƒ์  ์‹ ๋ขฐ ํ™•๋ณด์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด์˜ ์‹œ๊ฐ ์†์„ฑ ๋ฐฉ๋ฒ•๋“ค์€ LVLM์ด CXR ์ถ”๋ก  ์‹œ ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์‹œ๊ฐ์  ์ฆ๊ฑฐ๋ฅผ ์ œ๋Œ€๋กœ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ, ์ด๋ฅผ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ MedFocus ๋ฐฉ๋ฒ•์€ ๊ฐœ๋… ๊ธฐ๋ฐ˜ ์†์„ฑ์„ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์˜๋ฃŒ LVLM์˜ ์‹ ๋ขฐ์„ฑ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” LVLM์˜ ๋‚ด๋ถ€ ์ถ”๋ก  ๊ณผ์ •์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ '์ •๋‹ต'์ด ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ ์ธ๊ณผ์  ์ถ”๋ก ๊ณผ ๋ฐ˜์‚ฌ์‹ค์  ํŽธ์ง‘์„ ํ†ตํ•ด ์†์„ฑ ๋ฐฉ๋ฒ•์˜ ์œ ํšจ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ MedFocus๋Š” ํ‰๋ถ€ X์„  ๋ฐ์ดํ„ฐ์— ๊ตญํ•œ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ์˜๋ฃŒ ์˜์ƒ ๋ฐ์ดํ„ฐ์…‹์ด๋‚˜ ๋” ๋ณต์žกํ•œ ์ž„์ƒ ์ถ”๋ก  ์ž‘์—…์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘