# HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

### 저자

Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu

### 💡 개요

본 논문은 복잡한 작업을 수행할 때 불완전하거나 모호한 지시사항에 직면했을 때, 에이전트가 언제 자율적으로 행동하고 언제 도움을 요청해야 하는지에 대한 판단 능력을 측정하는 새로운 벤치마크인 HiL-Bench를 제안합니다. HiL-Bench는 질문의 정확성과 차단된 정보 회수율의 조화 평균인 Ask-F1 지표를 사용하여 에이전트의 선택적 도움 요청 기술을 평가하며, 기존 벤치마크와 달리 정보의 불확실성을 인지하고 도움을 요청하는 능력을 측정합니다.

### 🔑 시사점 및 한계

- AI 에이전트가 복잡한 실제 환경에서 성공적으로 작동하기 위해서는 단순히 실행 능력을 넘어, 정보의 불확실성을 인지하고 적절한 시점에 도움을 요청하는 '판단력'이 필수적임을 보여줍니다.

- 현재 최첨단 모델들도 도움 요청 능력에 상당한 격차를 보이며, 이는 모델 자체의 근본적인 결함임을 시사합니다.

- 도움 요청 능력은 강화 학습을 통해 훈련 가능하며, 이는 모델의 전반적인 성능 향상에 기여할 수 있습니다.

- 현재 벤치마크는 도움 요청 능력을 제대로 평가하지 못하며, 모델이 운 좋게 추측하는 경우와 명확한 정보 부족으로 도움을 요청하는 경우를 구분하지 못합니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.09408)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).