Sign In

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Created by
  • Haebom
Category
Empty

μ €μž

Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 AI μ—μ΄μ „νŠΈκ°€ λΆˆμ™„μ „ν•˜κ±°λ‚˜ λͺ¨ν˜Έν•œ μƒν™©μ—μ„œ μ–Έμ œ 도움을 μš”μ²­ν•΄μ•Ό ν•˜λŠ”μ§€λ₯Ό μΈ‘μ •ν•˜λŠ” μƒˆλ‘œμš΄ 벀치마크인 HiL-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬μ™€ 달리 HiL-BenchλŠ” 탐색을 톡해 λ“œλŸ¬λ‚˜λŠ” μ‹€μ œμ μΈ λ¬Έμ œμ μ„ ν¬ν•¨ν•˜λ©°, 질문의 μ •ν™•μ„±κ³Ό 문제점 λ°œκ²¬μœ¨μ„ κ²°ν•©ν•œ Ask-F1 점수λ₯Ό 톡해 μ—μ΄μ „νŠΈμ˜ '도움 μš”μ²­ λŠ₯λ ₯'을 ν‰κ°€ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ΅œμ²¨λ‹¨ λͺ¨λΈλ“€λ„ 도움 μš”μ²­ λŠ₯λ ₯μ—μ„œ μƒλ‹Ήν•œ 격차λ₯Ό 보이며, μ΄λŠ” λͺ¨λΈ 자체의 근본적인 flawμž„μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI μ—μ΄μ „νŠΈμ˜ λ‹¨μˆœν•œ μ‹€ν–‰ λŠ₯λ ₯을 λ„˜μ–΄, λΆˆν™•μ‹€μ„±μ„ μΈμ§€ν•˜κ³  μ μ‹œμ— 도움을 μš”μ²­ν•˜λŠ” 'νŒλ‹¨ λŠ₯λ ₯'이 λ³΅μž‘ν•œ 문제 해결에 μžˆμ–΄ 핡심적인 μš”μ†Œμž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
HiL-BenchλŠ” μ—μ΄μ „νŠΈμ˜ '도움 μš”μ²­' λŠ₯λ ₯을 μ •λŸ‰μ μœΌλ‘œ μΈ‘μ •ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•˜λ©°, μ΄λŠ” ν–₯ν›„ AI μ‹œμŠ€ν…œ 섀계 및 평가에 μ€‘μš”ν•œ 기쀀점이 될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ λͺ¨λΈλ“€μ€ 도움 μš”μ²­ μ‹ ν˜Έ 탐지 λŠ₯λ ₯이 λΆ€μ‘±ν•˜λ©°, μ΄λŠ” λͺ¨λΈ 자체의 근본적인 문제둜, ν›ˆλ ¨μ„ 톡해 κ°œμ„ λ  수 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ 도메인에 걸쳐 도움 μš”μ²­ λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄μ„œλŠ” 도메인별 νœ΄λ¦¬μŠ€ν‹± ν•™μŠ΅μ΄ μ•„λ‹Œ, ν•΄κ²° λΆˆκ°€λŠ₯ν•œ λΆˆν™•μ‹€μ„±μ„ κ°μ§€ν•˜κ³  이에 λŒ€μ‘ν•˜λŠ” 일반적인 λŠ₯λ ₯ ν•™μŠ΅μ΄ μ€‘μš”ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 도움 μš”μ²­ λŠ₯λ ₯의 뢀쑱이 λͺ¨λΈμ˜ 근본적인 flawμž„μ„ κ°•μ‘°ν•˜μ§€λ§Œ, 아직 μ‹€μ œ μΈκ°„κ³Όμ˜ μƒν˜Έμž‘μš©μ—μ„œ λ°œμƒν•  수 μžˆλŠ” λͺ¨λ“  λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό μ™„λ²½ν•˜κ²Œ ν¬κ΄„ν•˜μ§€λŠ” λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘