Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents

Created by
  • Haebom

저자

Ayesha Amjad, Saurav Sthapit, Tahir Qasim Syed

개요

본 논문은 청구서, 주문서, 고지서, 재무 문서와 같은 양식 문서에서 영숫자 데이터를 추출하기 위한 새로운 에이전트 기반 AI 시스템을 제안한다. 기존의 단일화된 파이프라인 방식 대신, 대규모 언어 모델(LLM) 에이전트와 강화 학습(RL) 드라이버 에이전트를 활용하여 일관적이고 자체적으로 개선되는 추출 과정을 자동화한다. LLM 추론의 불확실성을 다루기 위해 특정 작업에 맞는 프롬프트와 보상 및 페널티의 RL 정책을 사용하여 메타 프롬프팅 에이전트가 과거의 오류로부터 학습하고 프롬프트 기반 액터 에이전트를 개선하도록 설계되었다. 다양한 문서, 파일 형식, 레이아웃 및 LLM을 처리하며, 인간의 개입 없이 정확한 정보 추출을 자동화하는 것을 목표로 한다. SOIRE 및 CORD 두 개의 벤치마크 데이터셋에 대한 결과는 유망하다.

시사점, 한계점

시사점:
LLM의 불확실성을 고려한, 더욱 강건하고 자가 개선적인 문서 정보 추출 시스템을 제시.
모듈화된 다중 에이전트 프레임워크를 통해 다양한 문서 형식 및 LLM에 대한 적응력 향상.
강화학습 기반의 메타 프롬프팅을 통해 지속적인 성능 개선 가능성 제시.
인간 개입 없이 자동화된 정확한 정보 추출 가능성 제시.
한계점:
제안된 시스템의 실제 구현 및 확장성에 대한 자세한 설명 부족.
사용된 벤치마크 데이터셋의 규모 및 다양성에 대한 추가 정보 필요.
RL 정책의 설계 및 최적화 과정에 대한 자세한 설명 부족.
다양한 LLM에 대한 일반화 성능 평가 부족.
👍