GexBERT는 유전자 발현 데이터의 강건한 표현 학습을 위한 Transformer 기반 오토인코더 프레임워크입니다. 대규모 전사체 프로필을 사용하여 사전 훈련되며, 수천 개의 유전자 간의 공동 발현 관계를 포착하는 마스킹 및 복원 목표를 통해 문맥 인식 유전자 임베딩을 학습합니다. 암 연구의 세 가지 중요한 과제(범암 분류, 암 특이적 생존 예측, 결측값 대체)에서 평가되었으며, 제한된 유전자 하위 집합으로부터 최첨단 분류 정확도를 달성하고, 예후 앵커 유전자의 발현을 복원하여 생존 예측을 개선하며, 높은 결측률에서 기존 대체 방법보다 우수한 성능을 보였습니다. 또한, 주의 기반 해석 가능성을 통해 암 유형에 걸쳐 생물학적으로 의미 있는 유전자 패턴을 보여줍니다. 유전자 커버리지가 제한적이거나 불완전한 환경에서도 확장 가능하고 효과적인 유전자 발현 모델링 도구로서의 유용성을 보여줍니다.