GUI 에이전트가 익숙하지 않은 인터페이스와 장기간의 작업을 일반화할 수 있도록 확장 가능한 메모리를 부여하는 방법을 연구합니다. 이전 GUI 에이전트는 과거 궤적을 텍스트 토큰으로 압축했는데, 이는 컨텍스트 길이를 늘리고 결정적인 시각적 단서(예: 정확한 위젯 크기 및 위치)를 놓칩니다. 본 연구에서는 각 GUI 궤적을 VLM 자체를 인코더로 사용하여 고정 길이 연속 임베딩 시퀀스로 인코딩하는 연속 메모리를 제안합니다. 이러한 임베딩은 백본의 입력 계층에 직접 연결되어 컨텍스트 비용을 크게 줄이면서 미세한 시각적 정보를 유지합니다. 메모리 크기와 검색 깊이가 증가함에 따라 성능이 단조롭게 향상되며, 긴 프롬프트에서 저하되는 텍스트 메모리와는 대조적입니다. 저비용으로 메모리를 확장하기 위해 (i) 검색을 통해 새로운 환경을 발견하고, (ii) 오픈 소스 VLM으로 작업을 합성하며, (iii) 에이전트로 궤적을 롤아웃하고, (iv) 동일한 VLM으로 성공을 검증하는 자동 확장 데이터 플라이휠을 도입했습니다. 이 파이프라인을 사용하여 약 4,000달러에 10만 개 이상의 궤적을 수집하고, 메모리 인코더만 (Q-Former에 LoRA, 1.2% 파라미터) 1,500개의 샘플로 미세 조정했습니다. 실제 GUI 벤치마크에서, 메모리 증강 에이전트는 긴 시간 범위와 분포 변화에서 성공률을 일관되게 향상시킵니다. 특히, Qwen-2.5-VL-7B + 연속 메모리는 최첨단 폐쇄형 모델 (예: GPT-4o, Claude-4)과 유사한 성능을 달성합니다.