haebom
Sign In
ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context
Created by
Haebom
Category
Empty
μ μ
Zidi Xiu, David Q. Sun, Kevin Cheng, Maitrik Patel, Josh Date, Yizhe Zhang, Jiarui Lu, Omar Attia, Raviteja Vemulapalli, Oncel Tuzel, Meng Cao, Samy Bengio
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ°©λν κ°μΈ λ°μ΄ν°, λ€μν λꡬ, λ€λ¨κ³ μΆλ‘ μ μ²λ¦¬ν΄μΌ νλ μ°¨μΈλ AIλ₯Ό μν ASTRA-benchλΌλ μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ μν©λλ€. μ΄ λ²€μΉλ§ν¬λ μκ°μ μΌλ‘ λ³ννλ κ°μΈμ λ§₯λ½, μνΈμμ© κ°λ₯ν λꡬ λͺ¨μ, 볡μ‘ν μ¬μ©μ μλλ₯Ό ν΅ν©ν©λλ€. μ΅μ AI λͺ¨λΈλ€μ νκ° κ²°κ³Ό, 볡μ‘μ±μ΄ λμ μν©μμ μ±λ₯ μ νκ° λλλ¬μ§λ©°, νΉν λ Όμ¦ μμ± κΈ°λ₯μ΄ μ£Όμ λ³λͺ© νμμΌλ‘ λνλ¬μ΅λλ€.
π μμ¬μ λ° νκ³
β’
νμ¬ AI μμ΄μ νΈλ€μ΄ 볡μ‘νκ³ μ§μ λΆν κ°μΈμ λ§₯λ½ μμμ μΆλ‘ μ μννκ³ μ λ’°ν μ μλ λ€λ¨κ³ κ³νμ μ립νλ λ° μμ΄ μ€λν νκ³λ₯Ό λλ¬λ λλ€.
β’
ASTRA-benchλ λ§₯λ½μ μΈμ§νλ AI μ‘°μλ₯Ό κ°λ°νκΈ° μν μ§λ¨ ν μ€νΈλ² λλ₯Ό μ 곡ν©λλ€.
β’
ν₯ν μ°κ΅¬λ 볡μ‘ν κ°μΈμ λ§₯λ½μ κΈ°λ°ν μΆλ‘ λ° νλ κ³ν λ₯λ ₯μ ν₯μμν€λ λ° μ΄μ μ λ§μΆ°μΌ ν©λλ€.
PDF 보기
Made with Slashpage