본 논문에서는 상호작용적인 의료 영상 분할에서 사용자 피드백을 통해 예측을 개선하는 방법을 제시합니다. Segment Anything Model (SAM)과 같은 Vision Transformer (ViT) 기반 모델은 사용자 클릭과 이전 마스크를 프롬프트로 사용하여 최첨단 성능을 달성하지만, 상호작용을 독립적인 이벤트로 처리하여 중복 수정과 제한적인 개선 효과를 초래합니다. 따라서 본 논문에서는 과거 사용자 입력과 분할 상태를 저장하여 시간적 맥락을 통합하는 Memory-Attention mechanism for Interactive Segmentation (MAIS)를 제안합니다. MAIS는 다양한 영상 modality에서 ViT 기반 분할을 향상시켜 더 효율적이고 정확한 개선을 달성합니다.