Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

Created by
  • Haebom
Category
Empty

저자

N Dinesh Reddy, Sudeep Pillai

개요

Orion은 모든 모달리티를 입력받아 어떤 모달리티든 생성할 수 있는 시각 에이전트 프레임워크입니다. 여러 도구 호출 기능을 갖춘 에이전트 프레임워크를 사용하여 시각 AI 작업을 위해 설계되었으며, 최첨단 결과를 달성합니다. 묘사적 출력을 생성하는 기존의 시각-언어 모델과 달리 Orion은 객체 감지, 키포인트 로컬라이제이션, 파놉틱 분할, 광학 문자 인식 및 기하학적 분석을 포함한 전문화된 컴퓨터 비전 도구들을 조정하여 복잡한 다단계 시각적 워크플로우를 실행합니다. MMMU, MMBench, DocVQA 및 MMLongBench에서 경쟁력 있는 성능을 달성하며, 모놀리식 시각-언어 모델을 생산 수준의 시각 지능으로 확장합니다. 신경 인지와 기호 실행을 결합함으로써 Orion은 자율적 시각 추론을 가능하게 하며, 수동적 시각 이해에서 능동적이고 도구 기반의 시각 지능으로의 전환을 보여줍니다.

시사점, 한계점

다양한 모달리티를 처리하고 생성하는 범용 시각 에이전트 프레임워크 제시
다양한 컴퓨터 비전 도구를 활용하여 복잡한 시각적 워크플로우를 수행
MMMU, MMBench, DocVQA, MMLongBench에서 경쟁력 있는 성능 달성
수동적 이해에서 능동적이고 도구 기반의 시각 지능으로의 전환을 제시
논문에서 한계점에 대한 언급은 없음
👍