Sign In

InteractComp: Evaluating Search Agents With Ambiguous Queries

Created by
  • Haebom
Category
Empty

저자

Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo

개요

언어 에이전트는 웹 검색 및 정보 검색에서 상당한 잠재력을 보여주었지만, 사용자 쿼리가 완전하고 모호하지 않다는 가정을 가지고 있다. 실제 사용자는 상호 작용을 통해 명확화가 필요한 불완전한 쿼리로 시작한다. 대부분의 에이전트는 검색 과정에서 상호 작용 메커니즘이 부족하며, 기존 벤치마크는 이러한 능력을 평가할 수 없다. 이러한 격차를 해결하기 위해, 쿼리 모호성을 인식하고 검색 중에 이를 해결하기 위해 적극적으로 상호 작용하는지 평가하는 벤치마크 InteractComp를 소개한다. 210개의 전문가가 큐레이션한 질문을 통해 9개 도메인에서 목표-방해자 방법론을 사용하여 구축되었으며, 상호 작용을 통해서만 해결 가능한 실제 모호성을 생성한다. 17개 모델의 평가는 놀라운 실패를 보여주었으며, 최고의 모델은 완전한 컨텍스트에서 71.50% 정확도에도 불구하고 13.73%의 정확도만 기록했다. 강제 상호 작용은 극적인 이점을 가져왔고, 잠재된 능력을 현재 전략이 참여하지 못함을 보여주었다.

시사점, 한계점

시사점:
검색 에이전트가 쿼리 모호성을 인식하고 상호 작용하여 해결하는 능력이 부족함을 보여줌.
강제 상호 작용을 통해 잠재된 능력을 이끌어낼 수 있음을 입증.
상호 작용 능력의 정체 현상은 검색 성능 향상과 대조됨.
InteractComp는 검색 에이전트의 상호 작용 능력 평가 및 훈련에 유용한 리소스.
한계점:
해당 논문의 한계점은 명시적으로 언급되지 않음.
👍