본 논문은 단일 세포 데이터를 자연어로 모델링하고 강력한 거대 언어 모델(LLM)을 활용하여 세포 생물학을 이해하는 가능성을 보여주는 최근 연구들을 바탕으로, LLM의 성능에 대한 포괄적인 평가가 여전히 미개척 분야임을 지적합니다. 이에 연구진은 네 가지 유형의 단일 세포 멀티오믹스 데이터를 통합하고 세포 유형 주석(세포 수준), 약물 반응 예측(약물 수준), 섭동 분석(유전자 수준)의 세 가지 계층적 수준의 단일 세포 분석 과제를 포함하는 통합 언어 중심 질의응답 벤치마크인 CellVerse를 제시합니다. 160M에서 671B 매개변수까지 14개의 오픈소스 및 클로즈드소스 LLM을 CellVerse에서 체계적으로 평가한 결과, 기존 전문 모델(C2S-Pythia)은 CellVerse 내 모든 하위 과제에서 합리적인 결정을 내리지 못한 반면, Qwen, Llama, GPT 및 DeepSeek 계열 모델과 같은 일반 모델은 세포 생물학 영역 내에서 예비적인 이해 능력을 보여주는 것으로 나타났습니다. 하지만 현재 LLM의 성능은 기대에 미치지 못하며 상당한 개선의 여지가 있으며, 특히 광범위하게 연구된 약물 반응 예측 과제에서는 평가된 어떤 LLM도 무작위 추측보다 유의미한 성능 향상을 보여주지 못했습니다. CellVerse는 LLM을 세포 생물학에 적용하는 데 있어 상당한 과제가 여전히 남아 있음을 보여주는 최초의 대규모 실증적 연구입니다.