본 논문은 편의점 상품 마스킹이라는 특정 영역에서 로봇 조작을 위한 객체 마스킹의 정확도를 높이는 새로운 파이프라인을 제시합니다. CLIP과 SAM이라는 두 가지 고급 AI 모델을 통합하여 다중 모드 데이터(이미지와 텍스트)의 효과적인 사용과 시너지 효과에 중점을 둡니다. 성능 미세 조정을 위해 기울기 기반 어텐션 메커니즘과 사용자 정의 데이터 세트를 활용하는 데 중점을 둡니다. CLIP, SAM, Grad-CAM은 기존 구성 요소이지만, 이러한 구조화된 파이프라인 내에서의 통합은 해당 분야에 대한 중요한 기여를 나타냅니다. 이 결합된 접근 방식을 통해 생성된 분할 마스크는 로봇 시스템의 입력으로 효과적으로 활용되어 편의점 상품의 맥락에서 더 정확하고 적응적인 객체 조작을 가능하게 합니다.