Sign In

TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?

Created by
  • Haebom
Category
Empty

μ €μž

Yikun Zong, Cheston Tan

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(VLM)이 연속적인 κΈ°ν•˜ν•™μ  κ³΅κ°„μ—μ„œ μΆ”λ‘ ν•  수 μžˆλŠ”μ§€ νƒκ΅¬ν•˜λ©°, μΈκ°„μ˜ νƒ•κ·Έλž¨ 퍼즐 ν•΄κ²° 과정을 λͺ¨λ°©ν•œ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, κΈ°μ‘΄ VLM듀은 κΈ°ν•˜ν•™μ  좔둠에 체계적인 μ‹€νŒ¨λ₯Ό λ³΄μ˜€μœΌλ‚˜, μ œμ•ˆλœ ν›ˆλ ¨ μ—†λŠ” ν…ŒμŠ€νŠΈ μ‹œκ°„ 자기 μ •μ œ ν”„λ ˆμž„μ›Œν¬λŠ” 보상 기반 ν”Όλ“œλ°± 루프와 ν•¨κ»˜ μ‚¬μš©ν•˜μ—¬ λͺ¨λΈ μž¬ν›ˆλ ¨ 없이도 κΈ°ν•˜ν•™μ  일관성 ν”Όλ“œλ°±μ„ 톡해 μ˜ˆμΈ‘μ„ 반볡적으둜 κ°œμ„ ν•˜μ—¬ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΈκ°„μ˜ 인지 과정을 λͺ¨λ°©ν•œ 자기 μ •μ œ λ©”μ»€λ‹ˆμ¦˜μ΄ VLM의 연속적인 κΈ°ν•˜ν•™μ  μΆ”λ‘  λŠ₯λ ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ 없이 ν…ŒμŠ€νŠΈ μ‹œκ°„μ— λͺ¨λΈμ˜ μ˜ˆμΈ‘μ„ κ°œμ„ ν•˜λŠ” "자기 κ°œμ„  AI"의 μ‹€μ§ˆμ μΈ κ΅¬ν˜„ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬μ˜ VLM은 λ³΅μž‘ν•œ 연속 κΈ°ν•˜ν•™μ  κ³΅κ°„μ—μ„œμ˜ 좔둠에 μ—¬μ „νžˆ 어렀움을 κ²ͺκ³  있으며, μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯도 인간 μˆ˜μ€€μ—λŠ” λ―ΈμΉ˜μ§€ λͺ»ν•˜λŠ” ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘