본 논문은 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터를 통해 세포의 정체성과 기능을 이해하는 새로운 프레임워크를 제시합니다. NCBI Gene 데이터베이스의 유전자 특이적 텍스트 주석을 활용하여 생물학적 맥락을 고려한 세포 임베딩을 생성하는 방법을 제안합니다. 각 세포의 유전자 발현 수준을 기준으로 순위를 매기고, NCBI Gene 설명을 가져와 대규모 언어 모델(LLM)을 사용하여 벡터 임베딩 표현으로 변환합니다. 사용된 모델에는 OpenAI text-embedding-ada-002, text-embedding-3-small, text-embedding-3-large (2024년 1월), BioBERT, SciBERT가 포함됩니다. 가장 많이 발현되는 상위 N개 유전자에 대한 발현 가중 평균을 통해 임베딩을 계산하여 의미가 풍부하고 간결한 표현을 제공합니다. 이 다중 모드 전략은 구조화된 생물학적 데이터와 최첨단 언어 모델링을 연결하여 세포 유형 군집화, 세포 취약성 해부 및 궤적 추론과 같은 해석 가능한 하류 응용 프로그램을 가능하게 합니다.