Orion은 모든 모달리티를 입력받아 어떤 모달리티든 생성할 수 있는 시각 에이전트 프레임워크입니다. 여러 도구 호출 기능을 갖춘 에이전트 프레임워크를 사용하여 시각 AI 작업을 위해 설계되었으며, 최첨단 결과를 달성합니다. 묘사적 출력을 생성하는 기존의 시각-언어 모델과 달리 Orion은 객체 감지, 키포인트 로컬라이제이션, 파놉틱 분할, 광학 문자 인식 및 기하학적 분석을 포함한 전문화된 컴퓨터 비전 도구들을 조정하여 복잡한 다단계 시각적 워크플로우를 실행합니다. MMMU, MMBench, DocVQA 및 MMLongBench에서 경쟁력 있는 성능을 달성하며, 모놀리식 시각-언어 모델을 생산 수준의 시각 지능으로 확장합니다. 신경 인지와 기호 실행을 결합함으로써 Orion은 자율적 시각 추론을 가능하게 하며, 수동적 시각 이해에서 능동적이고 도구 기반의 시각 지능으로의 전환을 보여줍니다.