haebom
Sign In
PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Qiran Zhang, Yuheng Wang, Runde Yang, Lin Wu, Jingru Fan, Shu Yao, Jie Zhang, Tianle Zhou, Huatao Li, Ruijie Shi, Yihan Li, Chen Qian
π‘ κ°μ
λ³Έ λ Όλ¬Έμ νλ‘κ·Έλλ° μ½λλ₯Ό νμ©ν λΉλμ€ μμ±μμ μΈμ΄ λͺ¨λΈμ 곡κ°μ μ νμ±κ³Ό μκ°μ μΌκ΄μ±μ νκ°νκΈ° μν λκ·λͺ¨ λ²€μΉλ§ν¬μΈ PRISMμ μ μν©λλ€. 10,372κ°μ μ§μ-μ½λ μμΌλ‘ ꡬμ±λ PRISMμ νμ€ κΈ°λ° μ§μ μκ°ν μλ리μ€λ₯Ό ν¬κ΄νλ©°, μ½λ μ€ν κ°λ₯μ±, 곡κ°μ μΆλ‘ , λμ μκ° λ³΅μ‘μ± λ° μκ°μ λ°λλ₯Ό μΈ‘μ νλ 4κ°μ§ λ©νΈλ¦μ λμ ν©λλ€. μ£Όμ μ°κ΅¬ κ²°κ³Όλ μ€ν μ±κ³΅λ₯ κ³Ό 곡κ°μ ν΅κ³Όμ¨ μ¬μ΄μ μ½ 41%μ μλΉν 격차(Execution-Spatial Gap)κ° μ‘΄μ¬ν¨μ 보μ¬μ£Όλ©°, μ€ν κ°λ₯ν μ½λκ° λ°λμ 곡κ°μ μΌλ‘ μΌκ΄λ λΉμ£ΌμΌμ μμ±νλ κ²μ μλμ μμ¬ν©λλ€.
π μμ¬μ λ° νκ³
β’
νλ‘κ·Έλλ° λΉλμ€ μμ± λͺ¨λΈμ μ±λ₯ νκ° μ μ½λ μ€ν κ°λ₯μ±λΏλ§ μλλΌ κ³΅κ°μ μ νμ±μ λν μ격ν νκ°μ μ€μμ±μ κ°μ‘°ν©λλ€.
β’
PRISM λ²€μΉλ§ν¬λ νμ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ κ³΅κ°μ μΆλ‘ λ₯λ ₯μ ν₯μμν¬ νμκ° μμμ λͺ νν 보μ¬μ€λλ€.
β’
μ μλ λ²€μΉλ§ν¬μ νκ° νλ μμν¬λ ν₯ν 곡κ°μ μΌλ‘ μΌκ΄μ± μλ μ½λ μμ±μ μν LLM μ°κ΅¬ λ°μ μ κΈ°μ¬ν κ²μ λλ€.
β’
νμ¬ λ²€μΉλ§ν¬λ νΉμ μ νμ μ§μ μκ°ν μλ리μ€μ κ΅νλμ΄ μμΌλ©°, λ λ€μν λλ©μΈκ³Ό 볡μ‘μ±μ ν¬ν¨νλ νμ₯μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage