Sign In

DarkQA: Benchmarking Vision-Language Models on Visual-Primitive Question Answering in Low-Light Indoor Scenes

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yohan Park, Hyunwoo Ha, Wonjun Jo, Tae-Hyun Oh

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ‹€λ‚΄ 저쑰도 ν™˜κ²½μ—μ„œ μ‹œκ°-μ–Έμ–΄ λͺ¨λΈ(VLM)의 μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 DarkQAλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬κ°€ 이상적인 ν™˜κ²½λ§Œμ„ λ‹€λ£¬λ‹€λŠ” 점에 μ°©μ•ˆν•˜μ—¬, DarkQAλŠ” λ‹€μ–‘ν•œ 저쑰도 μ‘°κ±΄μ—μ„œ VLM의 인지 λŠ₯λ ₯ μ €ν•˜λ₯Ό μΈ‘μ •ν•©λ‹ˆλ‹€. 물리 기반 λ Œλ”λ§ νŒŒμ΄ν”„λΌμΈμ„ 톡해 μƒμ„±λœ 9.4K개의 질문-이미지 쌍으둜 κ΅¬μ„±λœ 이 λ²€μΉ˜λ§ˆν¬λŠ” VLM의 저쑰도 ν™˜κ²½μ—μ„œμ˜ ν•œκ³„λ₯Ό μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
저쑰도 ν™˜κ²½μ—μ„œ VLM의 μ„±λŠ₯ μ €ν•˜κ°€ μ„Όμ„œ λ…Έμ΄μ¦ˆμ™€ ν•¨κ»˜ μ‹¬ν™”λœλ‹€λŠ” 것을 μ‹€μ¦μ μœΌλ‘œ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
저쑰도 이미지 κ°œμ„ (LLIE) 방법이 μ„±λŠ₯ νšŒλ³΅μ— 도움을 쀄 수 μžˆμœΌλ‚˜, κ·Έ νš¨κ³ΌλŠ” 저쑰도 μˆ˜μ€€μ— 따라 가변적이며 λΆˆμ•ˆμ •ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ λ²€μΉ˜λ§ˆν¬λŠ” ν–₯ν›„ λ‘œλ΄‡ 곡학 λ“± 싀세계 μ‘μš©μ„ μœ„ν•œ VLM의 견고성을 κ°œμ„ ν•˜λŠ” 데 μ€‘μš”ν•œ 기반 자료둜 ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
LLIE와 VLM의 μƒν˜Έμž‘μš©μ— λŒ€ν•œ 더 심측적인 연ꡬ와 λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ‹œκ°μ  μ—΄ν™”(예: μ•ˆκ°œ, 흐림)에 λŒ€ν•œ 평가가 ν–₯ν›„ 과제둜 λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘