Sign In

Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models

Created by
  • Haebom
Category
Empty

μ €μž

Hiroshi Sasaki

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ‹œκ°κ³Ό μ–Έμ–΄λ₯Ό κ²°ν•©ν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ΄ λ―Έλ¬˜ν•œ μ‹œκ°μ  차이가 큰 의미적 μ€‘μš”μ„±μ„ κ°€μ§€λŠ” λ‹€μ΄μ–΄κ·Έλž¨ 이해에 어렀움을 κ²ͺλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ ν…μŠ€νŠΈ μš”μ†Œλ₯Ό λ¬΄μž‘μœ„λ‘œ μ‘°ν•©ν•˜μ—¬ ν•©μ„± λ‹€μ΄μ–΄κ·Έλž¨μ„ μƒμ„±ν•˜λŠ” λ Œλ”λŸ¬λ₯Ό ν™œμš©ν•œ μƒˆλ‘œμš΄ μ˜μ‚¬ λŒ€μ‘° ν•™μŠ΅(pseudo contrastive learning) νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 원본 데이터 μˆ˜μ • 없이 ꡬ쑰적 차이λ₯Ό λΆ€κ°ν•˜λŠ” μ˜μ‚¬ λŒ€μ‘° μƒ˜ν”Œμ„ ν•™μŠ΅μ— ν†΅ν•©ν•˜μ—¬, λͺ¨λΈμ΄ 더 μ •λ°€ν•˜κ³  의미둠적으둜 μΌκ΄€λœ λ‹€μ΄μ–΄κ·Έλž¨ ꡬ쑰λ₯Ό ν•™μŠ΅ν•˜λ„λ‘ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν…μŠ€νŠΈ μš”μ†Œ 기반 ν•©μ„± λ‹€μ΄μ–΄κ·Έλž¨ 생성을 ν†΅ν•œ μ˜μ‚¬ λŒ€μ‘° ν•™μŠ΅μ€ λ‹€μ΄μ–΄κ·Έλž¨κ³Ό 같이 λ―Έμ„Έν•œ ꡬ쑰적 λ³€ν™”κ°€ μ€‘μš”ν•œ λ„λ©”μΈμ—μ„œ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ˜ 이해도λ₯Ό 효과적으둜 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 κΈ°μ‘΄ CLIP λͺ¨λΈ 및 ν•˜λ“œ λ„€κ±°ν‹°λΈŒ ν•™μŠ΅ 방식 λŒ€λΉ„ ν”Œλ‘œμš°μ°¨νŠΈ 이해 벀치마크 λ°μ΄ν„°μ…‹μ—μ„œ 이미지-ν…μŠ€νŠΈ λ§€μΉ­ 및 μ‹œκ° μ§ˆμ˜μ‘λ‹΅ μ„±λŠ₯을 크게 κ°œμ„ ν•˜μ—¬, 도메인 νŠΉν™” ν•™μŠ΅ μ „λž΅μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—°κ΅¬λŠ” ν”Œλ‘œμš°μ°¨νŠΈμ™€ 같은 νŠΉμ • μœ ν˜•μ˜ λ‹€μ΄μ–΄κ·Έλž¨μ— μ΄ˆμ μ„ λ§žμΆ”κ³  있으며, λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ λ‹€μ΄μ–΄κ·Έλž¨μœΌλ‘œ ν™•μž₯ν•˜κ±°λ‚˜ λ Œλ”λ§ κ³Όμ •μ˜ λ³΅μž‘μ„± 및 닀양성을 λ”μš± λ†’μ΄λŠ” λ°©μ•ˆμ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘