Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ConnectomeBench: Can LLMs Proofread the Connectome?

Created by
  • Haebom
Category
Empty

저자

Jeff Brown, Andrew Kirjner Annika Vivekananthan, Ed Boyden

개요

신경 연결 지도 작성(Connectomics)은 이미지 처리 및 머신러닝 기반 분할을 통해 수집된 데이터를 인간이 직접 검토해야 하는 어려움이 있다. 본 연구는 AI 시스템이 데이터 검토에 필요한 여러 작업을 수행할 수 있는지 탐구하기 위해, 대규모 언어 모델(LLM)의 능력을 평가하는 ConnectomeBench라는 멀티모달 벤치마크를 제시한다. 이 벤치마크는 분할 유형 식별, 분할 오류 수정, 병합 오류 감지의 세 가지 주요 검토 작업에 초점을 맞춘다. 마우스 시각 피질 및 완전한 초파리 뇌의 전문가 주석 데이터를 사용하여 Claude 3.7/4 Sonnet, o4-mini, GPT-4.1, GPT-4o와 같은 독점 멀티모달 LLM과 InternVL-3 및 NVLM과 같은 오픈 소스 모델을 평가했다. 그 결과, 모델들은 분할 식별에서 52-82%의 균형 정확도, 이진/다중 선택 분할 오류 수정에서 75-85%의 정확도를 보이며, 병합 오류 식별에서는 전반적으로 어려움을 겪는 것으로 나타났다.

시사점, 한계점

시사점:
현재의 LLM이 분할 유형 식별 및 분할 오류 수정 작업에서 상당한 성능을 보임.
AI가 connectomics 데이터 검토를 보조하거나 대체할 수 있는 가능성을 보여줌.
한계점:
병합 오류 식별 작업에서 성능이 낮음.
최고 모델의 성능이 전문가 수준에 미치지 못함.
👍