haebom
Sign In
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
Created by
Haebom
Category
Empty
μ μ
Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ AI μμ΄μ νΈκ° λΆμμ νκ±°λ λͺ¨νΈν μν©μμ μΈμ λμμ μμ²ν΄μΌ νλμ§λ₯Ό μΈ‘μ νλ μλ‘μ΄ λ²€μΉλ§ν¬μΈ HiL-Benchλ₯Ό μ μν©λλ€. κΈ°μ‘΄ λ²€μΉλ§ν¬μ λ¬λ¦¬ HiL-Benchλ νμμ ν΅ν΄ λλ¬λλ μ€μ μ μΈ λ¬Έμ μ μ ν¬ν¨νλ©°, μ§λ¬Έμ μ νμ±κ³Ό λ¬Έμ μ λ°κ²¬μ¨μ κ²°ν©ν Ask-F1 μ μλ₯Ό ν΅ν΄ μμ΄μ νΈμ 'λμ μμ² λ₯λ ₯'μ νκ°ν©λλ€. μ€ν κ²°κ³Ό, μ΅μ²¨λ¨ λͺ¨λΈλ€λ λμ μμ² λ₯λ ₯μμ μλΉν 격차λ₯Ό 보μ΄λ©°, μ΄λ λͺ¨λΈ μ체μ κ·Όλ³Έμ μΈ flawμμ μμ¬ν©λλ€.
π μμ¬μ λ° νκ³
β’
AI μμ΄μ νΈμ λ¨μν μ€ν λ₯λ ₯μ λμ΄, λΆνμ€μ±μ μΈμ§νκ³ μ μμ λμμ μμ²νλ 'νλ¨ λ₯λ ₯'μ΄ λ³΅μ‘ν λ¬Έμ ν΄κ²°μ μμ΄ ν΅μ¬μ μΈ μμμμ 보μ¬μ€λλ€.
β’
HiL-Benchλ μμ΄μ νΈμ 'λμ μμ²' λ₯λ ₯μ μ λμ μΌλ‘ μΈ‘μ ν μ μλ μλ‘μ΄ νκ° νλ μμν¬λ₯Ό μ 곡νλ©°, μ΄λ ν₯ν AI μμ€ν μ€κ³ λ° νκ°μ μ€μν κΈ°μ€μ μ΄ λ μ μμ΅λλ€.
β’
νμ¬ λͺ¨λΈλ€μ λμ μμ² μ νΈ νμ§ λ₯λ ₯μ΄ λΆμ‘±νλ©°, μ΄λ λͺ¨λΈ μ체μ κ·Όλ³Έμ μΈ λ¬Έμ λ‘, νλ ¨μ ν΅ν΄ κ°μ λ μ μμμ νμΈνμ΅λλ€.
β’
λ€μν λλ©μΈμ κ±Έμ³ λμ μμ² λ₯λ ₯μ ν₯μμν€κΈ° μν΄μλ λλ©μΈλ³ ν΄λ¦¬μ€ν± νμ΅μ΄ μλ, ν΄κ²° λΆκ°λ₯ν λΆνμ€μ±μ κ°μ§νκ³ μ΄μ λμνλ μΌλ°μ μΈ λ₯λ ₯ νμ΅μ΄ μ€μν©λλ€.
β’
λ³Έ μ°κ΅¬λ λμ μμ² λ₯λ ₯μ λΆμ‘±μ΄ λͺ¨λΈμ κ·Όλ³Έμ μΈ flawμμ κ°μ‘°νμ§λ§, μμ§ μ€μ μΈκ°κ³Όμ μνΈμμ©μμ λ°μν μ μλ λͺ¨λ 볡μ‘ν μλ리μ€λ₯Ό μλ²½νκ² ν¬κ΄νμ§λ λͺ»ν μ μμ΅λλ€.
PDF 보기
Made with Slashpage