Sign In

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Created by
  • Haebom
Category
Empty

μ €μž

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 일반적인 λΆ„μ•Όμ—μ„œ 효과적인 κ²ƒμœΌλ‘œ μ•Œλ €μ§„ Vision Chain-of-Thought(CoT) ν”„λ‘¬ν”„νŒ…μ΄ 의료 μ˜μƒ 이해 μž‘μ—…μ—μ„œλŠ” 였히렀 μ„±λŠ₯ μ €ν•˜λ₯Ό μΌμœΌν‚¬ 수 μžˆλ‹€λŠ” λ°˜μ§κ΄€μ μΈ ν˜„μƒμ„ λ³΄κ³ ν•©λ‹ˆλ‹€. μ΄λŠ” 의료 λΆ„μ•Όμ˜ λ―Έλ¬˜ν•˜κ³  전문적인 μ‹œκ°μ  λ‹¨μ„œκ°€ CoT κ³Όμ •μ—μ„œ μ‹œκ°μ  κΈ°λ°˜μ„ μ•½ν™”μ‹œν‚€κ³ , 초기 인지적 λΆˆν™•μ‹€μ„±μ„ μ¦ν­μ‹œν‚€κΈ° λ•Œλ¬Έμ΄λΌκ³  μ„€λͺ…ν•©λ‹ˆλ‹€. 연ꡬ진은 μ˜μ—­λ³„ 관심 μ˜μ—­(region-of-interest) 큐와 κ³ ν’ˆμ§ˆ ν…μŠ€νŠΈ μ•ˆλ‚΄λ₯Ό ν™œμš©ν•œ 두 κ°€μ§€ μƒˆλ‘œμš΄ 인지 기반 μΈν„°λ²€μ…˜μ„ μ œμ•ˆν•˜μ—¬ μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κ³  μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
CoT ν”„λ‘¬ν”„νŒ…μ΄ 의료 μ˜μƒ 이해 μž‘μ—…μ—μ„œλŠ” 였히렀 μ„±λŠ₯을 μ €ν•˜μ‹œν‚¬ 수 있으며, μ΄λŠ” '의료 인지 병λͺ© ν˜„μƒ' λ•Œλ¬ΈμΌ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ˜μ—­λ³„ 관심 μ˜μ—­(region-of-interest) 큐와 ν…μŠ€νŠΈ μ•ˆλ‚΄μ™€ 같은 μ‹œκ°μ  기반 κ°•ν™” 기법이 의료 VLM의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³  CoT의 단점을 μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ‹ λ’°ν•  수 μžˆλŠ” μž„μƒ VLM을 μœ„ν•΄μ„œλŠ” ν…μŠ€νŠΈ 기반 μΆ”λ‘  체인 ν™•μž₯뿐만 μ•„λ‹ˆλΌ κ°•λ ₯ν•œ μ‹œκ°μ  기반과 ꡐ차 λͺ¨λ‹¬ 정렬이 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ κΈ°λ²•μ˜ νš¨κ³Όκ°€ νŠΉμ • λͺ¨λΈ μ•„ν‚€ν…μ²˜λ‚˜ 데이터셋에 따라 λ‹¬λΌμ§ˆ 수 있으며, μ‹€μ œ μž„μƒ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘