# LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications

### 저자

Danqing Zhang, Balaji Rama, Jingyi Ni, Shiying He, Fu Zhao, Kunyu Chen, Arnold Chen, Junyu Cao

### 개요

LiteWebAgent는 VLM 기반 웹 에이전트 애플리케이션을 위한 오픈소스 도구 모음입니다. 최소한의 서버리스 백엔드 구성, 직관적인 사용자 및 브라우저 인터페이스, 에이전트 계획, 메모리 및 트리 검색 분야의 확장 가능한 연구 기능을 결합한 프로덕션 준비 솔루션을 통해 웹 에이전트 생태계의 중요한 격차를 해결합니다.  LiteWebAgent 에이전트 프레임워크의 핵심은 재귀 함수 호출을 사용하는 간단하면서도 효과적인 기준을 구현하여 분리된 액션 생성 및 액션 접지(grounding)를 제공합니다. 또한, 에이전트 계획, 에이전트 워크플로 메모리 및 트리 검색과 같은 고급 연구 구성 요소를 모듈식이고 확장 가능한 방식으로 통합합니다.  그리고 두 가지 형식으로 배포된 시스템으로 프런트엔드와 백엔드를 통합합니다. (1) 사용자에게 에이전트가 제어하는 원격 브라우저를 제공하는 프로덕션 Vercel 기반 웹 애플리케이션, (2) CDP(Chrome DevTools Protocol)를 통해 기존 Chrome 브라우저를 제어하는 LiteWebAgent의 API를 활용하는 Chrome 확장 프로그램입니다.  LiteWebAgent 프레임워크는 [https://github.com/PathOnAI/LiteWebAgent에서](https://github.com/PathOnAI/LiteWebAgent%EC%97%90%EC%84%9C) 사용할 수 있으며, 배포된 프런트엔드는 [https://lite-web-agent.vercel.app/에서](https://lite-web-agent.vercel.app/%EC%97%90%EC%84%9C) 확인할 수 있습니다.

### 시사점, 한계점

- **시사점:**

    - VLM 기반 웹 에이전트 개발을 위한 사용 편의성 및 효율성 향상.

    - 서버리스 아키텍처를 통한 비용 효율적인 운영.

    - 모듈화된 설계를 통한 확장성 및 연구의 용이성 제공.

    - Vercel 기반 웹 애플리케이션 및 Chrome 확장 프로그램 제공으로 접근성 향상.

    - 오픈소스 공개를 통한 공동 연구 및 개발 촉진.

- **한계점:**

    - 현재 구현된 기준 모델의 성능 및 한계에 대한 명확한 설명 부족.

    - 다양한 웹 환경에 대한 적응력 및 안정성에 대한 추가적인 검증 필요.

    - 고급 기능 통합에 대한  상세한 설명 및 예시 부족.

    - 장기간 사용 시 발생할 수 있는 성능 저하 또는 오류에 대한 대비책 부재 가능성.

[PDF 보기](https://arxiv.org/pdf/2503.02950)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
