Cellpose와 같은 일반적인 생물 의학 이미지 분할 모델은 다양한 이미징 방식과 세포 유형에 적용되고 있지만, 훈련 데이터 중복 정도와 모델 유지에 대한 교차 도메인 전송의 영향이라는 두 가지 주요 과제는 충분히 연구되지 않았습니다. 본 연구에서는 Cellpose를 사례 연구로 사용하여 이러한 과제를 체계적으로 분석합니다. 데이터 중복성을 평가하기 위해 간단한 데이터 세트 양자화(DQ) 전략을 제안하여 작지만 다양한 훈련 서브세트를 구성합니다. Cyto 데이터 세트에 대한 실험 결과, 이미지 분할 성능이 전체 데이터의 10%만으로도 포화되며, 최소한의 주석으로 훈련이 가능하다는 것을 보여주었습니다. MAE 임베딩 및 t-SNE를 사용한 잠재 공간 분석을 통해 DQ로 선택된 패치가 무작위 샘플링보다 더 큰 특징 다양성을 포착한다는 것을 확인했습니다. 또한, 교차 도메인 미세 조정을 수행하여 치명적인 망각을 조사하고, 일반적인 도메인에서 전문적인 도메인으로 적응할 때 소스 도메인 성능 저하를 관찰했습니다. DQ 기반의 선택적 재실행은 소스 데이터의 5-10%만 다시 도입하여 소스 성능을 효과적으로 복원하는 반면, 전체 재실행은 대상 적응을 방해할 수 있음을 입증했습니다. 또한, 훈련 도메인 순서를 정하는 것이 일반화를 개선하고 다단계 전송에서 망각을 줄인다는 것을 발견했습니다.