CLIP 기반 모델의 정렬 속성은 CLIPscore와 같은 이미지 품질 평가 지표의 효과적인 사용을 가능하게 한다. 그러나 이러한 CLIP 기반 지표는 섬세한 다중 모달 정렬에 취약하다. 본 연구에서는 CLIP 기반 이미지 품질 지표를 속이기 위한 특징 공간 오정렬 프레임워크인 FoCLIP을 제안한다. FoCLIP은 확률적 경사 하강 기술을 기반으로, 이미지-텍스트 모달 격차를 줄이는 핵심 모듈인 특징 정렬, 점수 분포 균형 모듈, 픽셀 보호 정규화를 통합하여 CLIPscore 성능과 이미지 품질 간의 다중 모달 출력 평형을 최적화한다. 이러한 설계는 인간의 지각적 관점에서 시각적 인식 불가능성 또는 의미론적 부조화에도 불구하고 다양한 입력 프롬프트에서 CLIPscore 예측을 최대화하도록 구성될 수 있다. 10개의 예술 걸작 프롬프트와 ImageNet 서브셋에 대한 실험 결과, 최적화된 이미지가 높은 시각적 충실도를 유지하면서 CLIPscore를 크게 향상시킬 수 있음을 보여준다. 또한, 흑백 변환이 속임수 이미지에서 유의미한 특징 저하를 유도하여 CLIPscore를 감소시키는 반면, 원본 이미지와의 통계적 일관성을 유지한다는 것을 발견했다. 이러한 현상에서 영감을 받아, 표준 벤치마크에서 91%의 정확도를 달성하는 색상 채널 민감도 기반 변조 감지 메커니즘을 제안한다. 결론적으로, 본 연구는 CLIP 기반 다중 모달 시스템에서 특징 오정렬을 위한 실용적인 방법을 제시하고, 이에 대응하는 방어 방법을 제시한다.