Sign In

HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Esra Donmez, Pascal Tilli, Hsiu-Yu Yang, Thang Vu, Carina Silberer

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ›Ήμ—μ„œ μˆ˜μ§‘λœ 이미지-ν…μŠ€νŠΈ 쌍의 μ•½ν•œ μ—°κ΄€μ„±μœΌλ‘œ 인해 λ°œμƒν•˜λŠ” λΉ„μ „-μ–Έμ–΄(VL) λͺ¨λΈμ˜ λ―Έμ„Έν•œ 의미둠적 이해 λΆ€μ‘± 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 'μ–΄λ €μš΄ λΆ€μ • μΊ‘μ…˜(Hard Negative Captions, HNC)'μ΄λΌλŠ” μƒˆλ‘œμš΄ 데이터셋을 μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 ITM(Image-Text Matching) ν•™μŠ΅μ„ κ°•ν™”ν•˜μ—¬ λ―Έμ„Έν•œ ꡐ차 λͺ¨λ‹¬ 이해 λŠ₯λ ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 λͺ¨λΈμ˜ μ œλ‘œμƒ· λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κ³  λ…Έμ΄μ¦ˆκ°€ μžˆλŠ” μž…λ ₯ ν™˜κ²½μ—μ„œλ„ κ°•κ±΄ν•œ μ„±λŠ₯을 λ³΄μ—¬μ£Όμ—ˆμœΌλ©°, νŒŒμΈνŠœλ‹ μ‹œμ—λ„ μš°μˆ˜ν•œ 초기 μ„±λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ ITM ν•™μŠ΅ λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  λ―Έμ„Έν•œ ꡐ차 λͺ¨λ‹¬ 이해 λŠ₯λ ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μƒˆλ‘œμš΄ 데이터셋과 ν•™μŠ΅ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ HNC 데이터셋을 ν™œμš©ν•œ λͺ¨λΈμ€ μ œλ‘œμƒ· μ„±λŠ₯ 및 λ…Έμ΄μ¦ˆ ν™˜κ²½μ—μ„œμ˜ 강건성이 κ°œμ„ λ˜λ©°, νŒŒμΈνŠœλ‹μ„ μœ„ν•œ 쒋은 μ΄ˆκΈ°κ°’μœΌλ‘œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°μ΄ν„°μ…‹μ˜ μžλ™ 생성 λ°©μ‹μ˜ ν•œκ³„μ μ„ λ³΄μ™„ν•˜κ³ , λ”μš± λ³΅μž‘ν•œ 쑰합적 좔둠이 ν•„μš”ν•œ κ²½μš°μ— λŒ€ν•œ μ„±λŠ₯ ν–₯상을 μœ„ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘