Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology

Created by
  • Haebom
Category
Empty

저자

Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang

개요

대규모 언어 모델(LLM)과 에이전트 프레임워크가 단일 세포 생물학 분야를 변화시키고 있지만, 데이터 양식, 아키텍처, 평가 기준이 분산되어 있다. LLM4Cell은 RNA, ATAC, 다중 오믹스, 공간 양식을 아우르는 단일 세포 연구를 위해 개발된 58개의 파운데이션 모델과 에이전트 모델에 대한 최초의 통합 조사이다. 이 모델들을 파운데이션, 텍스트 브릿지, 공간, 다중 모달, 후성 유전체, 에이전트의 5가지 범주로 분류하고, 주석, 궤적 및 교란 모델링, 약물 반응 예측 등 8가지 주요 분석 작업에 매핑한다. 40개 이상의 공개 데이터 세트를 활용하여 벤치마크 적합성, 데이터 다양성, 윤리적 또는 확장성 제약 조건을 분석하고, 생물학적 근거, 다중 오믹스 정렬, 공정성, 개인 정보 보호 및 설명 가능성을 포함하는 10가지 도메인 차원에서 모델을 평가한다. LLM4Cell은 데이터 세트, 모델 및 평가 도메인을 연결하여 언어 기반 단일 세포 지능에 대한 최초의 통합적 관점을 제공하고 해석 가능성, 표준화 및 신뢰할 수 있는 모델 개발에 대한 열린 과제를 제시한다.

시사점, 한계점

시사점:
단일 세포 연구를 위한 언어 모델과 에이전트 프레임워크의 통합적 관점을 제공한다.
다양한 데이터 양식(RNA, ATAC, 다중 오믹스, 공간)에 대한 모델을 분석한다.
8가지 주요 분석 작업에 대한 모델의 성능을 평가한다.
벤치마크, 데이터 다양성, 윤리적/확장성 제약 조건을 분석한다.
10가지 도메인 차원(생물학적 근거, 다중 오믹스 정렬, 공정성, 개인 정보 보호, 설명 가능성)에서 모델을 평가한다.
해석 가능성, 표준화, 신뢰할 수 있는 모델 개발에 대한 과제를 제시한다.
한계점:
모델과 데이터 세트의 수가 제한적일 수 있다 (58개 모델, 40개 이상의 데이터 세트).
평가 방법론의 주관성 및 한계가 존재할 수 있다.
특정 모델 또는 작업에 대한 깊이 있는 분석이 부족할 수 있다.
윤리적, 확장성, 개인 정보 보호와 같은 측면에 대한 구체적인 해결책 제시가 미흡할 수 있다.
👍