Vision-language 모델(VLM)은 텍스트가 풍부한 이미지를 해석하는 데 뛰어나지만, 여러 페이지에 걸쳐 정보 분석 및 통합을 요구하는 길고 시각적으로 복잡한 문서를 처리하는 데 어려움을 겪습니다. ALDEN(Active Long-DocumEnt Navigation)은 VLM을 길고 시각적으로 풍부한 문서를 능동적으로 탐색할 수 있는 대화형 에이전트로 미세 조정하는 다중 턴 강화 학습 프레임워크입니다. ALDEN은 문서 구조를 더 잘 활용하기 위해 인덱스로 페이지에 직접 접근하는 새로운 fetch 액션을 도입합니다. 또한, 밀집된 프로세스 감독과 효율적인 훈련을 위해 턴 및 토큰 수준의 신호를 모두 제공하는 규칙 기반 교차 수준 보상을 제안합니다. 긴 문서에서 나오는 많은 시각적 토큰으로 인해 발생하는 훈련 불안정성을 해결하기 위해 시각 및 텍스트 표현을 훈련 중에 별도로 안정화하는 이중 경로 KL 발산 제약을 적용하는 시각적-의미적 앵커링 메커니즘을 제안합니다. 세 개의 오픈 소스 데이터 세트로 구성된 코퍼스에서 훈련된 ALDEN은 다섯 개의 긴 문서 벤치마크에서 최고 성능을 달성했습니다. ALDEN은 수동 문서 읽기를 넘어 길고 시각적으로 풍부한 문서를 자율적으로 탐색하고 추론하는 에이전트로 나아가는 단계이며, 보다 정확하고 효율적인 긴 문서 이해에 대한 견고한 경로를 제공합니다.