haebom
Sign In
$\pi$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ¬μ©μμ λͺ μμ μΈ μꡬμ¬νμ΄ λΆμ‘±νκ±°λ μ¨κ²¨μ§ μλλ₯Ό νμ νμ¬ μ₯κΈ°μ μΈ λ§₯λ½μμ λ₯λμ μΌλ‘ μ§μνλ κ°μΈ λΉμ μμ΄μ νΈμ λ₯λ ₯μ νκ°νκΈ° μν $\pi$-BenchλΌλ μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ μν©λλ€. $\pi$-Benchλ 100κ°μ λ€μ€ ν΄(multi-turn) μμ κ³Ό μ¨κ²¨μ§ μ¬μ©μ μλ, μμ κ° μμ‘΄μ±, μΈμ κ° μ°μμ±μ ν¬ν¨νμ¬ μ€μ μ¬μ© μλ리μ€λ₯Ό λ°μν©λλ€. μ€ν κ²°κ³Ό, μμ΄μ νΈμ λ₯λμ μ§μμ μ¬μ ν μ΄λ ΅κ³ , μμ μλ£ λ₯λ ₯κ³Ό λ₯λμ± μ¬μ΄μ λͺ νν ꡬλΆμ΄ μμΌλ©°, μ΄μ μνΈμμ©μ΄ νμ μμ μ λ₯λμ μλ ν΄κ²°μ κ°μΉκ° μμμ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
νμ¬ κ°μΈ λΉμ μμ΄μ νΈλ μ¬μ©μμ μ¨κ²¨μ§ μλλ₯Ό νμ νκ³ μ μ μ μΌλ‘ μ§μνλ λ° μ΄λ €μμ κ²ͺκ³ μμ΅λλ€.
β’
λ₯λμ μ§μ λ₯λ ₯κ³Ό μμ μ μ±κ³΅μ μΌλ‘ μλ£νλ λ₯λ ₯μ μλ‘ λ€λ₯Έ μ°¨μμ νκ°κ° νμν©λλ€.
β’
$\pi$-Benchλ μ€μ κ°μΈ λΉμ νμ© μλ리μ€λ₯Ό λ μ λ°μνλ μ₯κΈ°μ μ΄κ³ λ₯λμ μΈ μ§μ λ₯λ ₯μ νκ°νλ λ° μ€μν κΈ°μ¬λ₯Ό ν©λλ€.
β’
ν₯ν μ°κ΅¬λ λ 볡μ‘νκ³ μμΈ‘ λΆκ°λ₯ν μ€μ μ¬μ©μ νκ²½μμμ μμ΄μ νΈ λ₯λμ±μ κ°μ νλ λ° μ΄μ μ λ§μΆ°μΌ ν©λλ€.
PDF 보기
Made with Slashpage