haebom
Sign In
COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen
π‘ κ°μ
λ³Έ λ Όλ¬Έμ νμ€μ λ¬Έμμ²λΌ ν μ€νΈμ μ΄λ―Έμ§κ° λ€μμΈ λ³΅μ‘ν λ©ν°λͺ¨λ¬ λ§₯λ½μμ μ΄λ―Έμ§μ ν μ€νΈ κ°μ μΈλ°ν λμ κ΄κ³λ₯Ό μ΄ν΄νλ λ©ν°λͺ¨λ¬ κ±°λ μΈμ΄ λͺ¨λΈ(MLLMs)μ λ₯λ ₯μ νκ°νκΈ° μν μλ‘μ΄ λ²€μΉλ§ν¬μΈ COHERENCEλ₯Ό μ μν©λλ€. COHERENCEλ λ€ κ°μ§ λνμ μΈ μμμ λ€μμΈ μ΄λ―Έμ§-ν μ€νΈ λ°μ΄ν°λ₯Ό νμ©νλ©°, 6,161κ°μ κ³ νμ§ μ§λ¬ΈμΌλ‘ ꡬμ±λμ΄ μμ΅λλ€. λν, 6κ°μ§ μ νμ μ€λ₯ λΆμμ ν΅ν΄ MLLMsμ λ€μμΈ λ©ν°λͺ¨λ¬ μ΄ν΄ λ₯λ ₯ λΆμ‘±μ μΈλ°νκ² νμ ν μ μλλ‘ ν©λλ€.
π μμ¬μ λ° νκ³
β’
볡μ‘ν μ€μ λ©ν°λͺ¨λ¬ νκ²½μμμ MLLMs μ±λ₯ νκ°μ νμν μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ μν©λλ€.
β’
MLLMsκ° κ°λ³ μ΄λ―Έμ§ λ° ν μ€νΈλ₯Ό μ΄ν΄νλ κ²μ λμ΄, λ€μμΈ λ§₯λ½μμ μ΄λ―Έμ§μ ν μ€νΈ κ°μ μΈλ°ν μ°κ΄μ±μ νμ νκ³ μΆλ‘ νλ λ₯λ ₯μ νκ°ν μ μμ΅λλ€.
β’
νμ¬ MLLMsμ λ€μμΈ λ©ν°λͺ¨λ¬ μ΄ν΄ κ³Όμ μμ λ°μνλ λ€μν μ€λ₯ μ νμ λΆλ₯νκ³ λΆμνλ νμ μ 곡νμ¬ ν₯ν λͺ¨λΈ κ°μ λ°©ν₯μ μ μν©λλ€.
β’
λ²€μΉλ§ν¬μ λ€μν μμμ λ€λ£¨κ³ μμ§λ§, λ λκ³ λ€μν μ€μ μλ리μ€λ₯Ό ν¬κ΄νκΈ° μν μΆκ°μ μΈ λλ©μΈ νμ₯ λ° λ°μ΄ν°μ ꡬμΆμ΄ νμν©λλ€.
PDF 보기
Made with Slashpage