Sign In

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxuan Gao, Megan Wang, Yi Ling Yu, Zijian Carl Ma, Ao Qu

πŸ’‘ κ°œμš”

λ³Έ 논문은 μž₯기적인 μ—μ΄μ „νŠΈ 기반 μ›Œν¬ν”Œλ‘œμš°μ—μ„œ λ°œμƒν•˜λŠ” '신생 μœ„μž„(emergent delegation)'을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 DecisionBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DecisionBenchλŠ” λ‹€μ–‘ν•œ μž‘μ—… λͺ¨μŒ, λͺ¨λΈ ν’€, μœ„μž„ μΈν„°νŽ˜μ΄μŠ€, μŠ€ν‚¬ 주석 계측 및 닀차원 μ„±λŠ₯ μΈ‘μ • μ§€ν‘œλ₯Ό ν†΅ν•©ν•˜μ—¬ μ—μ΄μ „νŠΈλ“€μ˜ μœ„μž„ μ „λž΅μ„ ν‰κ°€ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 기쑴의 ν’ˆμ§ˆ 쀑심 평가 λ°©μ‹μœΌλ‘œλŠ” 놓칠 수 μžˆλŠ” μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜ μ‹ ν˜Έλ₯Ό λ°œκ²¬ν•˜κ³ , μœ„μž„ μ „λž΅μ˜ μ„±λŠ₯ ν–₯상 μ—¬μ§€λ₯Ό νŒŒμ•…ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μœ„μž„ μ „λž΅μ˜ μ€‘μš”μ„±: μž‘μ—… ν’ˆμ§ˆλ§ŒμœΌλ‘œλŠ” μ—μ΄μ „νŠΈ μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜μ˜ 전체 μ„±λŠ₯을 νŒŒμ•…ν•˜κΈ° μ–΄λ €μš°λ©°, μ–΄λ–€ λͺ¨λΈμ„ μ–Έμ œ μœ„μž„ν•˜λŠ”μ§€κ°€ ν’ˆμ§ˆκ³Ό μœ μ‚¬ν•œ μˆ˜μ€€μ˜ μ€‘μš”ν•œ μ‹ ν˜Έμž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μœ„μž„ λΌμš°νŒ…μ˜ 잠재λ ₯: ν˜„μž¬ μœ„μž„ λΌμš°νŒ…μ€ μ™„λ²½ν•˜μ§€ μ•ŠμœΌλ©°, 툴 μ‚¬μš© 방식(on-demand tool vs. preloaded description)이 λͺ¨λΈ μ„€λͺ… λ‚΄μš©λ³΄λ‹€ λΌμš°νŒ… 정확도에 더 큰 영ν–₯을 미침을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
κ°œμ„  μ—¬μ§€: μ™„λ²½ν•œ μœ„μž„ μ „λž΅μ„ κ°€μ •ν–ˆμ„ λ•Œμ˜ μ„±λŠ₯(counterfactual ceiling)은 μ‹€μ œ μΈ‘μ •λœ μ„±λŠ₯보닀 훨씬 λ†’κ²Œ λ‚˜νƒ€λ‚˜, 미래의 μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜ 방법둠 κ°œλ°œμ„ μœ„ν•œ μƒλ‹Ήν•œ 잠재λ ₯이 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ 과제: μœ„μž„ μ „λž΅μ˜ μ΅œμ ν™”λ₯Ό μœ„ν•œ μƒˆλ‘œμš΄ 방법둠 개발 및 λ‹€μ–‘ν•œ μ—μ΄μ „νŠΈ μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ DecisionBench 적용 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘