Sign In

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Qiran Zhang, Yuheng Wang, Runde Yang, Lin Wu, Jingru Fan, Shu Yao, Jie Zhang, Tianle Zhou, Huatao Li, Ruijie Shi, Yihan Li, Chen Qian

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν”„λ‘œκ·Έλž˜λ° μ½”λ“œλ₯Ό ν™œμš©ν•œ λΉ„λ””μ˜€ μƒμ„±μ—μ„œ μ–Έμ–΄ λͺ¨λΈμ˜ 곡간적 μ •ν™•μ„±κ³Ό μ‹œκ°„μ  일관성을 ν‰κ°€ν•˜κΈ° μœ„ν•œ λŒ€κ·œλͺ¨ 벀치마크인 PRISM을 μ œμ•ˆν•©λ‹ˆλ‹€. 10,372개의 μ§€μ‹œ-μ½”λ“œ 쌍으둜 κ΅¬μ„±λœ PRISM은 ν˜„μ‹€ 기반 지식 μ‹œκ°ν™” μ‹œλ‚˜λ¦¬μ˜€λ₯Ό ν¬κ΄„ν•˜λ©°, μ½”λ“œ μ‹€ν–‰ κ°€λŠ₯μ„±, 곡간적 μΆ”λ‘ , 동적 μ‹œκ° λ³΅μž‘μ„± 및 μ‹œκ°„μ  밀도λ₯Ό μΈ‘μ •ν•˜λŠ” 4κ°€μ§€ λ©”νŠΈλ¦­μ„ λ„μž…ν•©λ‹ˆλ‹€. μ£Όμš” 연ꡬ κ²°κ³ΌλŠ” μ‹€ν–‰ 성곡λ₯ κ³Ό 곡간적 ν†΅κ³Όμœ¨ 사이에 μ•½ 41%의 μƒλ‹Ήν•œ 격차(Execution-Spatial Gap)κ°€ μ‘΄μž¬ν•¨μ„ 보여주며, μ‹€ν–‰ κ°€λŠ₯ν•œ μ½”λ“œκ°€ λ°˜λ“œμ‹œ κ³΅κ°„μ μœΌλ‘œ μΌκ΄€λœ 비주얼을 μƒμ„±ν•˜λŠ” 것은 μ•„λ‹˜μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν”„λ‘œκ·Έλž˜λ° λΉ„λ””μ˜€ 생성 λͺ¨λΈμ˜ μ„±λŠ₯ 평가 μ‹œ μ½”λ“œ μ‹€ν–‰ κ°€λŠ₯μ„±λΏλ§Œ μ•„λ‹ˆλΌ 곡간적 정확성에 λŒ€ν•œ μ—„κ²©ν•œ ν‰κ°€μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
PRISM λ²€μΉ˜λ§ˆν¬λŠ” ν˜„μž¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 곡간적 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚¬ ν•„μš”κ°€ μžˆμŒμ„ λͺ…ν™•νžˆ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ²€μΉ˜λ§ˆν¬μ™€ 평가 ν”„λ ˆμž„μ›Œν¬λŠ” ν–₯ν›„ κ³΅κ°„μ μœΌλ‘œ 일관성 μžˆλŠ” μ½”λ“œ 생성을 μœ„ν•œ LLM 연ꡬ λ°œμ „μ— κΈ°μ—¬ν•  κ²ƒμž…λ‹ˆλ‹€.
β€’
ν˜„μž¬ λ²€μΉ˜λ§ˆν¬λŠ” νŠΉμ • μœ ν˜•μ˜ 지식 μ‹œκ°ν™” μ‹œλ‚˜λ¦¬μ˜€μ— κ΅­ν•œλ˜μ–΄ 있으며, 더 λ‹€μ–‘ν•œ 도메인과 λ³΅μž‘μ„±μ„ ν¬ν•¨ν•˜λŠ” ν™•μž₯이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘