본 논문은 단일 세포 분석에 대한 사전 훈련된 언어 모델(PLM)의 적용이 제한적이라는 점을 지적하며, 이를 해결하기 위해 단일 세포와 텍스트를 공동으로 모델링하는 통합 PLM인 Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT)를 제안합니다. scMMGPT는 최첨단 세포 및 텍스트 PLM을 효과적으로 통합하여 향상된 성능을 위한 교차 모달 지식 공유를 가능하게 합니다. 텍스트-세포 모달리티 간의 차이를 해소하기 위해 전용 교차 모달 프로젝터를 활용하고, 2700만 개의 세포(현존하는 최대 규모의 다중 모달 세포-텍스트 PLM 데이터셋)를 사용하여 광범위한 사전 훈련을 거칩니다. 이를 통해 세포 설명 생성의 텍스트 불일치를 84% 상대적으로 개선하고, 세포 유형 주석 정확도를 20.5% 향상시키며, 텍스트 조건부 의사 세포 생성의 k-NN 정확도를 4% 향상시키는 등 기존 방법들을 능가하는 성능을 달성합니다.