단일세포 접근 가능 염색질 분석 시퀀싱(scATAC-seq) 데이터를 이용한 규제 기전 해석을 위한 새로운 기반 모델 ChromFound를 제시한다. 기존 단일세포 전사체 데이터에 대한 기반 모델과 달리, ChromFound는 scATAC-seq 데이터의 고차원성과 희소성, 표준화된 열린 염색질 영역(OCR) 표현 방식 부재 등의 어려움을 극복하고, 0-shot 고품질 세포 식별 및 포괄적인 다중 오믹스 분석을 동시에 지원한다. 하이브리드 아키텍처와 게놈 인식 토큰화를 활용하여 게놈 전반의 긴 컨텍스트와 역동적인 염색질 환경의 조절 신호를 효과적으로 포착한다. 30개 조직 및 6개 질병 상태의 197만 개 세포를 사전 학습하여 6가지 다양한 작업에 광범위하게 적용 가능성을 보여주며, 범용 세포 표현 생성에서 강력한 0-shot 성능과 세포 유형 주석 및 교차 오믹스 예측에서 우수한 전이성을 보인다. 기존 계산 방법으로는 발견되지 않은 인핸서-유전자 연결을 밝혀 비암호화 게놈의 질병 위험 변이를 이해하는 데 유용한 프레임워크를 제공한다.
시사점, 한계점
•
시사점:
◦
scATAC-seq 데이터를 위한 최초의 기반 모델 제공.
◦
0-shot 고품질 세포 식별 및 포괄적인 다중 오믹스 분석 지원.
◦
게놈 전반의 긴 컨텍스트 및 조절 신호 효과적으로 포착.
◦
세포 유형 주석 및 교차 오믹스 예측에서 우수한 성능.
◦
기존 방법으로는 발견되지 않은 인핸서-유전자 연결 발견 및 질병 위험 변이 이해에 기여.
•
한계점:
◦
논문에서 명시적으로 언급된 한계점은 없음. 추가 연구를 통해 모델의 일반화 성능 및 다양한 scATAC-seq 데이터셋에 대한 적용 가능성을 더욱 검증할 필요가 있음. 또한, 모델의 해석 가능성 및 설명 가능성에 대한 연구가 필요할 수 있음.