BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
Created by
Haebom
저자
Tao Yu, Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen
개요
본 논문은 LLM이 동적 웹 환경과 상호작용하며 외부 정보를 자율적으로 획득하는 능력을 향상시키는 데 초점을 맞춘다. 인간의 웹 브라우징 행동을 모방하여, 스크롤, 클릭, 타이핑 등 다양한 브라우저 액션을 통해 복잡한 작업을 해결하는 보다 상호작용적인 에이전트인 BrowserAgent를 제안한다. BrowserAgent는 Playwright를 통해 원시 웹 페이지에서 직접 작동하며, SFT와 RFT의 두 단계 훈련 방식을 사용한다. 이는 Search-R1보다 적은 훈련 데이터를 사용하면서도 다양한 Open-QA 작업에서 경쟁력 있는 결과를 달성했다. 또한, 장기적인 작업에 대한 모델의 추론 능력을 향상시키기 위해 명시적인 메모리 메커니즘을 도입했다. BrowserAgent-7B는 HotpotQA, 2Wiki, Bamboogle과 같은 멀티홉 QA 작업에서 Search-R1보다 약 20% 향상된 성능을 보였다.
시사점, 한계점
•
시사점:
◦
인간의 브라우징 행동을 모방한 상호작용적인 에이전트 설계를 통해 웹 환경과의 상호작용성을 개선함.