Sign In

ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context

Created by
  • Haebom
Category
Empty

μ €μž

Zidi Xiu, David Q. Sun, Kevin Cheng, Maitrik Patel, Josh Date, Yizhe Zhang, Jiarui Lu, Omar Attia, Raviteja Vemulapalli, Oncel Tuzel, Meng Cao, Samy Bengio

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ°©λŒ€ν•œ 개인 데이터, λ‹€μ–‘ν•œ 도ꡬ, 닀단계 좔둠을 μ²˜λ¦¬ν•΄μ•Ό ν•˜λŠ” μ°¨μ„ΈλŒ€ AIλ₯Ό μœ„ν•œ ASTRA-benchλΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” μ‹œκ°„μ μœΌλ‘œ λ³€ν™”ν•˜λŠ” 개인적 λ§₯락, μƒν˜Έμž‘μš© κ°€λŠ₯ν•œ 도ꡬ λͺ¨μŒ, λ³΅μž‘ν•œ μ‚¬μš©μž μ˜λ„λ₯Ό ν†΅ν•©ν•©λ‹ˆλ‹€. μ΅œμ‹  AI λͺ¨λΈλ“€μ˜ 평가 κ²°κ³Ό, λ³΅μž‘μ„±μ΄ 높은 μƒν™©μ—μ„œ μ„±λŠ₯ μ €ν•˜κ°€ λ‘λ“œλŸ¬μ§€λ©°, 특히 논증 생성 κΈ°λŠ₯이 μ£Όμš” 병λͺ© ν˜„μƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜„μž¬ AI μ—μ΄μ „νŠΈλ“€μ΄ λ³΅μž‘ν•˜κ³  μ§€μ €λΆ„ν•œ 개인적 λ§₯락 μ†μ—μ„œ 좔둠을 μˆ˜ν–‰ν•˜κ³  μ‹ λ’°ν•  수 μžˆλŠ” 닀단계 κ³„νšμ„ μˆ˜λ¦½ν•˜λŠ” 데 μžˆμ–΄ μ€‘λŒ€ν•œ ν•œκ³„λ₯Ό λ“œλŸ¬λƒ…λ‹ˆλ‹€.
β€’
ASTRA-benchλŠ” λ§₯락을 μΈμ§€ν•˜λŠ” AI 쑰수λ₯Ό κ°œλ°œν•˜κΈ° μœ„ν•œ 진단 ν…ŒμŠ€νŠΈλ² λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” λ³΅μž‘ν•œ 개인적 λ§₯락에 κΈ°λ°˜ν•œ μΆ”λ‘  및 행동 κ³„νš λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 μ΄ˆμ μ„ λ§žμΆ°μ•Ό ν•©λ‹ˆλ‹€.
πŸ‘