본 논문은 고내용 스크리닝(HCS) 분석에 사용되는 셀 페인팅과 같은 고처리량 현미경 기술을 기반으로, 세포의 형태학적 반응에 대한 방대한 규모의 조사를 가능하게 하는 연구에 대해 다룹니다. 이러한 데이터 수집은 서로 다른 섭동과 세포 상태에 대한 영향 간의 관계를 더 잘 이해하는 데 도움이 될 것으로 기대됩니다. 이를 위해 본 논문에서는 교차 모달 대조 학습의 최근 발전을 활용하여 섭동과 그에 상응하는 형태학적 효과를 정렬하는 통합된 잠재 공간을 학습하는 CellCLIP이라는 프레임워크를 제시합니다. CellCLIP은 사전 훈련된 이미지 인코더와 새로운 채널 인코딩 방식을 활용하여 이미지 임베딩에서 서로 다른 현미경 채널 간의 관계를 더 잘 포착하고, 섭동을 나타내는 자연어 인코더를 사용합니다. 기존 오픈소스 모델보다 성능이 우수하며, 교차 모달 검색과 생물학적으로 의미 있는 하류 작업 모두에서 최고의 성능을 보이며 계산 시간도 상당히 단축합니다.