비전-언어 모델(VLM)을 기반으로 하는 다중 에이전트 시스템이 엔드투엔드 자율 과학적 발견을 향상시킨다는 연구. 그림을 검증 가능한 체크포인트로 취급하여 VLM을 심판으로 활용, 동적으로 생성된 도메인별 채점 기준에 따라 그림을 평가하고, 에이전트가 오류를 수정하며 실시간으로 탐색적 데이터 분석을 수행하도록 한다. 우주론 및 천체 화학 분야의 사례 연구를 통해 오류 추론 경로에서 복구하고, 인간 개입 없이 새로운 데이터 세트에 적응하는 능력을 입증했다. 데이터 기반 발견을 위한 10가지 작업 벤치마크에서 VLM 기반 시스템은 0.7-0.8의 통과 점수를 달성했으며, 코드 전용 기반은 0.2-0.3, 코드 및 텍스트 기반은 0.4-0.5를 기록했다. 또한 해석 가능성을 향상시키는 감사 가능한 추론 추적을 제공한다.