PEMF-VTO는 마스크 기반 방식의 한계를 극복하기 위해 점 기반의 마스크 없는 비디오 가상 피팅 프레임워크를 제안합니다. 기존 마스크 기반 방식은 복잡한 실제 환경에서 마스크의 크기와 일관성 문제로 인해 시공간 정보 손실 및 결과 왜곡이 발생하는 반면, 마스크 없는 방식은 피팅 영역 결정에 어려움을 겪습니다. PEMF-VTO는 점 정렬을 활용하여 공간적 및 시간적 일관성을 유지하며, Point-Enhanced Transformer (PET) 내의 Point-Enhanced Spatial Attention (PSA)와 Point-Enhanced Temporal Attention (PTA)를 통해 프레임-의류 점 정렬 및 프레임-프레임 점 대응을 활용하여 정확한 의류 전달과 매끄러운 전환을 가능하게 합니다. 실험 결과, 특히 복잡한 실제 환경에서 최첨단 방식보다 더 자연스럽고 일관성 있으며 시각적으로 매력적인 가상 피팅 비디오를 생성하는 것으로 나타났습니다.