haebom
Sign In
$\pi$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ¬μ©μμ λͺ μμ μΈ μꡬμ¬ν μ΄λ©΄μ μ¨κ²¨μ§ μλλ₯Ό νμ νκ³ μ₯κΈ°μ μΈ μνΈμμ©μμ μ μ μ μΌλ‘ μ§μνλ λ₯λ ₯μ νκ°νλ μλ‘μ΄ λ²€μΉλ§ν¬μΈ $\pi$-Benchλ₯Ό μ μνλ€. $\pi$-Benchλ 5κ°μ§ μ¬μ©μ νλ₯΄μλμ κ±Έμ³ 100κ°μ λ©ν°ν΄ μμ μ ν¬ν¨νλ©°, μ¨κ²¨μ§ μ¬μ©μ μλ, μμ κ° μμ‘΄μ±, μΈμ κ° μ°μμ±μ κ³ λ €νμ¬ μ€μ μ μ μ¬ν νκ²½μμ μμ΄μ νΈμ μ μ μ μ§μ λ₯λ ₯κ³Ό μμ μλ£ λ₯λ ₯μ λμμ μΈ‘μ νλ€. μ€ν κ²°κ³Ό, μ μ μ μ§μμ μ¬μ ν μ΄λ €μ΄ κ³Όμ μ΄λ©°, μμ μλ£μ μ μ μ μ§μμ λͺ νν ꡬλΆλκ³ , μ΄μ μνΈμμ©μ΄ μ΄ν μμ μμ μ¨κ²¨μ§ μλλ₯Ό νμ νλ λ° μ€μν¨μ νμΈνλ€.
π μμ¬μ λ° νκ³
β’
κ°μΈ λΉμ μμ΄μ νΈμ μ€μ§μ μΈ κ°μΉλ₯Ό νκ°νκΈ° μν΄μλ μ¬μ©μμ μ¨κ²¨μ§ μλλ₯Ό νμ νλ μ μ μ μ§μ λ₯λ ₯μ μΈ‘μ νλ κ²μ΄ νμμ μ΄λ€.
β’
μμ μλ£ λ₯λ ₯λ§μΌλ‘λ μ₯κΈ°μ μΈ λ³΅μ‘ν μ¬μ©μ μꡬλ₯Ό λ§μ‘±μν€λ μμ΄μ νΈμ μ±λ₯μ μΆ©λΆν νκ°ν μ μμΌλ©°, μ μ μ μ§μ λ₯λ ₯κ³Ό ν¨κ» κ³ λ €ν΄μΌ νλ€.
β’
$\pi$-Benchλ μ₯κΈ°μ μΈ μ¬μ©μ μνΈμμ©μμ μ μ μ μ§μ λ₯λ ₯μ νκ°νλ λ° μ€μν λꡬλ₯Ό μ 곡νμ§λ§, μ€μ μΈκ³μ λͺ¨λ 볡μ‘μ±κ³Ό λ€μμ±μ μλ²½νκ² λ°μνκΈ°μλ νκ³κ° μμ μ μμΌλ©°, ν₯ν λ λ€μν μλ리μ€μ μ¬μ©μ λͺ¨λΈμ ν¬ν¨νλ λ°©ν₯μΌλ‘ νμ₯λ νμκ° μλ€.
PDF 보기
Made with Slashpage