haebom
Sign In
AgentCE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments
Created by
Haebom
Category
Empty
μ μ
Wang Yang, Chaoda Song, Xinpeng Li, Debargha Ganguly, Chuang Ma, Shouren Wang, Zhihao Dou, Yuli Zhou, Vipin Chaudhary, Xiaotian Han
π‘ κ°μ
κΈ°μ‘΄ Agent λ²€μΉλ§ν¬μ λμ νκ²½ μνΈμμ© μ€λ²ν€λμ λΆκ· νν μμ λμ΄λ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, AgentCE-Benchλ μ¨κ²¨μ§ μ¬λ‘―μ μ±μ°λ ν΅ν© 그리λ κΈ°λ° κ³ν κ³Όμ λ₯Ό μ μν©λλ€. μ΄ λ²€μΉλ§ν¬λ μ¨κ²¨μ§ μ¬λ‘― μ($H$)λ‘ μμ μ λ²μλ₯Ό νμ₯νκ³ , μ€ν΄μ μμ§κ° μλ ν보 μλ₯Ό μ μ΄νλ μμ°($B$)μΌλ‘ λμ΄λλ₯Ό μ‘°μ ν μ μλ λ κ°μ§ λ 립μ μΈ μΆμ μ 곡ν©λλ€. κ²½λ νκ²½ μ€κ³λ₯Ό ν΅ν΄ νκ²½ μ€μ μ€λ²ν€λλ₯Ό μ κ±°νκ³ λΉ λ₯΄κ³ μ¬ν κ°λ₯ν νκ°λ₯Ό κ°λ₯νκ² ν©λλ€.
π μμ¬μ λ° νκ³
β’
AgentCE-Benchλ μμ λ²μμ λμ΄λλ₯Ό μ λ’°μ± μκ² μ μ΄ν μ μμΌλ©°, λͺ¨λΈμ μ°¨λ³μ±μ ν¨κ³Όμ μΌλ‘ 보μ¬μ€λλ€.
β’
13κ° λͺ¨λΈμ λν κ΄λ²μν μ€νμ ν΅ν΄ λͺ¨λΈ κ° μ±λ₯ μ°¨μ΄λ₯Ό λͺ νν νμ νκ³ , Agent μΆλ‘ μ λν ν΄μ κ°λ₯νκ³ μ μ΄ κ°λ₯ν νκ°λ₯Ό μ 곡ν©λλ€.
β’
λ€μν ν¬κΈ°μ κ³μ΄μ λͺ¨λΈλ€μ λμμΌλ‘ 6κ° λλ©μΈμμ μ€νμ μ§ννμ¬ AgentCE-Benchμ μ μ©μ±μ μ μ¦νμ΅λλ€.
PDF 보기
Made with Slashpage