Sign In

Do multimodal models imagine electric sheep?

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Santhosh Kumar Ramakrishnan, Carl Vondrick, Raja Giryes, Philipp Krahenbuhl, Vladlen Koltun

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ΄ 곡간 퍼즐을 ν•΄κ²°ν•  λ•Œ 정신적 심상을 λ°œλ‹¬μ‹œν‚¨λ‹€λŠ” 것을 λ³΄μ—¬μ€λ‹ˆλ‹€. 연ꡬ진은 Qwen3.5 VLM λͺ¨λΈμ„ λ‹€μ–‘ν•œ μ‹œκ°μ  μΆ”λ‘  μž‘μ—…μ— λŒ€ν•΄ νŒŒμΈνŠœλ‹ν•˜κ³ , λͺ¨λΈμ΄ 퍼즐을 ν‘ΈλŠ” 일련의 행동을 μ˜ˆμΈ‘ν•˜λ„λ‘ μ§€λ„ν•¨μœΌλ‘œμ¨, 각 행동 이후 λͺ¨λΈμ˜ ν™œμ„±ν™” μƒνƒœκ°€ 쀑간 μƒνƒœμ— λŒ€ν•œ 의미 μžˆλŠ” μ‹œκ° 정보λ₯Ό 인코딩함을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ…μ‹œμ μΈ μ‹œκ°μ  지도 없이도 λΆˆμ™„μ „ν•œ μ‹œκ°μ  세계 λͺ¨λΈμ΄ 행동 선택 ν•™μŠ΅μ˜ λΆ€μ‚°λ¬Όλ‘œ ν˜•μ„±λ¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ€ λͺ…μ‹œμ μΈ μ‹œκ°μ  지도 없이도 곡간적 μΆ”λ‘  κ³Όμ •μ—μ„œ λ‚΄μž¬μ μΈ μ‹œκ°μ  세계 λͺ¨λΈμ„ ν˜•μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λΈμ΄ μƒμ„±ν•˜λŠ” 정신적 심상은 퍼즐 ν•΄κ²° λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 ν™œμš©λ  수 있으며, 특히 좔둠이 많이 μš”κ΅¬λ˜λŠ” μž‘μ—…μ—μ„œ νš¨κ³Όκ°€ ν½λ‹ˆλ‹€.
β€’
ν˜•μ„±λœ 정신적 심상이 μ‹€μ œ μΈκ°„μ˜ μ‹œκ°μ  심상과 μ–Όλ§ˆλ‚˜ μœ μ‚¬ν•œμ§€, λ˜λŠ” μ–Όλ§ˆλ‚˜ λ³΅μž‘ν•œ μ‹œκ°μ  세계λ₯Ό ν‘œν˜„ν•  수 μžˆλŠ”μ§€μ— λŒ€ν•œ 좔가적인 탐ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘