본 논문은 소매 환경에서 비디오 어노테이션의 효율성을 높이기 위해 딥러닝 기반의 자동 키프레임 식별 및 어노테이션 방법을 제안합니다. 기존의 수동 어노테이션 방식의 시간 소모 및 비용 문제를 해결하기 위해, 심층 신경망을 이용하여 비디오 프레임의 특징을 학습하고, 소매 환경에 맞춘 객체 탐지 기술을 통합하여 자동으로 제품과 고객을 어노테이션합니다. 실험 결과, 제안된 방법은 기존 방식보다 정확도가 높고, 사람이 직접 어노테이션하는 것과 비슷한 정확도를 유지하면서 비용을 평균 2배 절감하는 효과를 보였습니다. 이는 검증/수정이 필요한 프레임이 5% 미만임을 의미하며, 나머지 프레임은 자동화된 어노테이션으로 처리됩니다. 쇼핑 여정 분석, 제품 상호작용 감지, 매장 보안 모니터링 등 다양한 소매 애플리케이션에 활용될 수 있습니다.