Sign In

ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents

Created by
  • Haebom
Category
Empty

저자

Tianyu Yang, Terry Ruas, Yijun Tian, Jan Philip Wahle, Daniel Kurzawe, Bela Gipp

개요

Vision-language 모델(VLM)은 텍스트가 풍부한 이미지를 해석하는 데 뛰어나지만, 여러 페이지에 걸쳐 정보 분석 및 통합을 요구하는 길고 시각적으로 복잡한 문서를 처리하는 데 어려움을 겪습니다. ALDEN(Active Long-DocumEnt Navigation)은 VLM을 길고 시각적으로 풍부한 문서를 능동적으로 탐색할 수 있는 대화형 에이전트로 미세 조정하는 다중 턴 강화 학습 프레임워크입니다. ALDEN은 문서 구조를 더 잘 활용하기 위해 인덱스로 페이지에 직접 접근하는 새로운 fetch 액션을 도입합니다. 또한, 밀집된 프로세스 감독과 효율적인 훈련을 위해 턴 및 토큰 수준의 신호를 모두 제공하는 규칙 기반 교차 수준 보상을 제안합니다. 긴 문서에서 나오는 많은 시각적 토큰으로 인해 발생하는 훈련 불안정성을 해결하기 위해 시각 및 텍스트 표현을 훈련 중에 별도로 안정화하는 이중 경로 KL 발산 제약을 적용하는 시각적-의미적 앵커링 메커니즘을 제안합니다. 세 개의 오픈 소스 데이터 세트로 구성된 코퍼스에서 훈련된 ALDEN은 다섯 개의 긴 문서 벤치마크에서 최고 성능을 달성했습니다. ALDEN은 수동 문서 읽기를 넘어 길고 시각적으로 풍부한 문서를 자율적으로 탐색하고 추론하는 에이전트로 나아가는 단계이며, 보다 정확하고 효율적인 긴 문서 이해에 대한 견고한 경로를 제공합니다.

시사점, 한계점

시사점:
VLM을 능동적으로 탐색하는 에이전트로 미세 조정하는 강화 학습 프레임워크 제시.
문서 구조를 더 잘 활용하기 위한 fetch 액션 도입.
효율적인 훈련을 위한 규칙 기반 교차 수준 보상 제안.
훈련 불안정성을 해결하기 위한 시각적-의미적 앵커링 메커니즘 제안.
다섯 개의 긴 문서 벤치마크에서 최고 성능 달성.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (예: 특정 데이터 세트 의존성, 복잡한 문서 구조에서의 성능 저하 가능성 등은 추론 가능)
👍