신경 연결 지도 작성(Connectomics)은 이미지 처리 및 머신러닝 기반 분할을 통해 수집된 데이터를 인간이 직접 검토해야 하는 어려움이 있다. 본 연구는 AI 시스템이 데이터 검토에 필요한 여러 작업을 수행할 수 있는지 탐구하기 위해, 대규모 언어 모델(LLM)의 능력을 평가하는 ConnectomeBench라는 멀티모달 벤치마크를 제시한다. 이 벤치마크는 분할 유형 식별, 분할 오류 수정, 병합 오류 감지의 세 가지 주요 검토 작업에 초점을 맞춘다. 마우스 시각 피질 및 완전한 초파리 뇌의 전문가 주석 데이터를 사용하여 Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4o와 같은 독점 멀티모달 LLM과 InternVL-3 및 NVLM과 같은 오픈 소스 모델을 평가했다. 그 결과, 모델들은 분할 식별에서 52-82%의 균형 정확도, 이진/다중 선택 분할 오류 수정에서 75-85%의 정확도를 보이며, 병합 오류 식별에서는 전반적으로 어려움을 겪는 것으로 나타났다.