본 논문은 고내용 스크리닝(HCS) 분석법과 셀 페인팅과 같은 고처리량 현미경 기술을 기반으로 세포의 형태학적 반응을 전례 없는 규모로 조사하는 방법을 제시한다. 이러한 데이터 수집은 다양한 섭동과 세포 상태에 대한 영향 간의 관계를 더 잘 이해하는 데 도움이 될 것으로 기대된다. 이를 위해 교차 모드 대조 학습의 최근 발전을 활용하여 섭동과 그에 따른 형태학적 효과를 정렬하는 통합된 잠재 공간을 학습할 수 있다. 하지만, 자연 이미지와 비교하여 셀 페인팅 이미지의 의미론적 차이와 소분자 대 CRISPR 유전자 녹아웃과 같은 서로 다른 종류의 섭동을 단일 잠재 공간에 표현하는 어려움으로 인해 HCS 데이터에 이러한 방법을 적용하는 것은 간단하지 않다. 이러한 과제에 대응하여 본 논문에서는 HCS 데이터를 위한 교차 모달 대조 학습 프레임워크인 CellCLIP을 소개한다. CellCLIP은 사전 훈련된 이미지 인코더와 새로운 채널 인코딩 방식을 활용하여 이미지 임베딩에서 다양한 현미경 채널 간의 관계를 더 잘 포착하고, 섭동을 나타내는 자연어 인코더를 활용한다. 제안된 프레임워크는 기존 오픈소스 모델보다 우수한 성능을 보이며, 교차 모달 검색과 생물학적으로 의미 있는 하류 작업 모두에서 최고의 성능을 달성하는 동시에 계산 시간을 크게 단축한다.