본 논문은 대규모 단일 세포 유전자 발현 데이터에 대한 자기 지도 학습을 통해 다양한 세포 기능을 결정하는 전사체 언어를 해독하고 궁극적으로 인간 질병의 복잡한 메커니즘을 밝히는 데 큰 가능성을 지닌 전사체 기반 모델(TFM)에 대해 다룹니다. 기존 TFM은 세포를 독립적인 샘플로 취급하고 세포 계통 그래프에서 확인할 수 있는 세포 유형 간의 분류 관계를 무시한다는 한계점을 지적하며, 이러한 계통 정보를 TFM 사전 훈련 중에 효과적으로 활용하면 생물학적으로 의미 있는 유전자 공동 발현 패턴 학습을 개선하는 동시에 TFM을 다운스트림 제로샷 및 미세 조정 작업을 위한 범용 기반 모델로 유지할 수 있다고 주장합니다. 이를 위해, 세포 계통 정보를 활용한 단일 세포 TFM인 scCello를 제시합니다. scCello는 사전 훈련 중에 마스크된 유전자 발현 예측 손실과 함께 최소화되는 세포 유형 일관성 손실과 계통 정렬 손실을 도입합니다. 새로운 손실 구성 요소는 각각 scCello가 세포 유형 특이적 표현과 세포 계통 그래프의 세포 유형 간 구조적 관계를 학습하도록 안내합니다. CellxGene 데이터베이스의 2200만 개 세포를 사용하여 Open Biological and Biomedical Ontology Foundry의 세포 계통 그래프에 매핑된 세포 유형 레이블을 활용하여 scCello를 사전 훈련했습니다. 본 논문의 TFM은 새로운 세포 유형 식별, 세포 유형 특이적 마커 유전자 예측 및 암 약물 반응을 포함한 생물학적으로 중요한 작업에서 기존 TFM보다 경쟁력 있는 일반화 및 전이 성능을 보여줍니다.
시사점, 한계점
•
시사점: 세포 계통 정보를 활용한 TFM 사전 훈련을 통해 생물학적으로 의미 있는 유전자 공동 발현 패턴 학습 개선 및 다운스트림 작업에서의 성능 향상 (새로운 세포 유형 식별, 세포 유형 특이적 마커 유전자 예측, 암 약물 반응 예측 등)
•
한계점: CellxGene 데이터베이스와 Open Biological and Biomedical Ontology Foundry에 의존적인 점. 다른 데이터베이스나 온톨로지 사용 시 성능 변화 가능성. 세포 계통 정보를 효과적으로 통합하는 방법에 대한 추가적인 연구 필요.