Sign In

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν˜„μ‹€μ˜ λ¬Έμ„œμ²˜λŸΌ ν…μŠ€νŠΈμ™€ 이미지가 λ’€μ„žμΈ λ³΅μž‘ν•œ λ©€ν‹°λͺ¨λ‹¬ λ§₯λ½μ—μ„œ 이미지와 ν…μŠ€νŠΈ κ°„μ˜ μ„Έλ°€ν•œ λŒ€μ‘ 관계λ₯Ό μ΄ν•΄ν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ(MLLMs)의 λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 COHERENCEλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. COHERENCEλŠ” λ„€ κ°€μ§€ λŒ€ν‘œμ μΈ μ˜μ—­μ˜ λ’€μ„žμΈ 이미지-ν…μŠ€νŠΈ 데이터λ₯Ό ν™œμš©ν•˜λ©°, 6,161개의 κ³ ν’ˆμ§ˆ 질문으둜 κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 6κ°€μ§€ μœ ν˜•μ˜ 였λ₯˜ 뢄석을 톡해 MLLMs의 λ’€μ„žμΈ λ©€ν‹°λͺ¨λ‹¬ 이해 λŠ₯λ ₯ 뢀쑱을 μ„Έλ°€ν•˜κ²Œ νŒŒμ•…ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ³΅μž‘ν•œ μ‹€μ œ λ©€ν‹°λͺ¨λ‹¬ ν™˜κ²½μ—μ„œμ˜ MLLMs μ„±λŠ₯ 평가에 ν•„μš”ν•œ μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
MLLMsκ°€ κ°œλ³„ 이미지 및 ν…μŠ€νŠΈλ₯Ό μ΄ν•΄ν•˜λŠ” 것을 λ„˜μ–΄, λ’€μ„žμΈ λ§₯λ½μ—μ„œ 이미지와 ν…μŠ€νŠΈ κ°„μ˜ μ„Έλ°€ν•œ 연관성을 νŒŒμ•…ν•˜κ³  μΆ”λ‘ ν•˜λŠ” λŠ₯λ ₯을 평가할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ MLLMs의 λ’€μ„žμΈ λ©€ν‹°λͺ¨λ‹¬ 이해 κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” λ‹€μ–‘ν•œ 였λ₯˜ μœ ν˜•μ„ λΆ„λ₯˜ν•˜κ³  λΆ„μ„ν•˜λŠ” 틀을 μ œκ³΅ν•˜μ—¬ ν–₯ν›„ λͺ¨λΈ κ°œμ„  λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
벀치마크의 λ‹€μ–‘ν•œ μ˜μ—­μ„ 닀루고 μžˆμ§€λ§Œ, 더 λ„“κ³  λ‹€μ–‘ν•œ μ‹€μ œ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό ν¬κ΄„ν•˜κΈ° μœ„ν•œ 좔가적인 도메인 ν™•μž₯ 및 데이터셋 ꡬ좕이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘