# DocOS: Towards Proactive Document-Guided Actions in GUI Agents

### 저자

Jingjing Liu, Ziye Huang, Zihao Cheng, Zeming Liu, Jiahong Wu, Yuhang Guo, Kehai Chen, Yunhong Wang, Haifeng Wang

### 💡 개요

기존 GUI 에이전트가 정적 파라미터 지식에 의존하여 장기적인 작업을 처리하는 데 한계를 보이자, 본 논문에서는 동적 오픈 웹 환경에서 인간의 문제 해결 방식을 모방한 '사전 예방적 문서 안내 액션(Proactive Document-Guided Action)' 패러다임을 제안합니다. 이를 평가하기 위해 새로운 벤치마크인 DocOS를 개발했으며, 실험 결과 에이전트가 문서를 효과적으로 탐색하고 지침을 GUI 액션으로 정확히 구현하는 데 여전히 어려움이 있음을 확인했습니다.

### 🔑 시사점 및 한계

- 동적이고 개방된 웹 환경에서 GUI 에이전트가 문서 검색을 통해 복잡한 장기 작업을 해결할 수 있는 새로운 가능성을 제시합니다.

- 문서 검색 능력과 검색된 지침을 GUI 액션으로 정확하게 구현하는 능력이 GUI 에이전트의 자율적 발전에 있어 핵심적인 요소임을 강조합니다.

- 에이전트가 웹 문서를 신뢰성 있게 탐색하고, 검색된 절차적 지침을 정확하게 GUI 액션으로 구현하는 데 대한 근본적인 어려움을 해결해야 하는 과제가 남아있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.18048)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
