의학 영상(MRI, CT 등)의 수동 주석은 시간과 노력이 많이 소요되는 작업입니다. Segment Anything Model 2(SAM 2)와 같은 비디오 객체 분할을 위한 최신 기반 모델은 몇 개의 슬라이스를 수동으로 주석 처리한 후 전체 볼륨으로 대상 마스크를 전파하여 주석 처리 속도를 크게 높일 수 있는 잠재력을 제공합니다. 그러나 이 컨텍스트에서 SAM 2의 성능은 다양합니다. 본 논문에서는 단일 메모리 뱅크 및 어텐션 모듈에 의존하는 것이 오류 전파에 취약하며, 특히 대상이 이전 슬라이스에는 있지만 현재 슬라이스에는 없는 경계 영역에서 취약하다는 것을 실험을 통해 확인했습니다. 이러한 문제를 해결하기 위해, 본 논문은 분할 정확도를 향상시키기 위해 별도의 단기 및 장기 메모리 뱅크와 개별 어텐션 모듈을 통합하는 새로운 아키텍처인 Short-Long Memory SAM 2(SLM-SAM 2)를 제안합니다. MRI, CT, 초음파 비디오에 걸쳐 장기, 뼈, 근육을 포함하는 4개의 공개 데이터 세트에서 SLM-SAM 2를 평가했습니다. 제안된 방법은 기본 SAM 2보다 훨씬 뛰어난 성능을 보이며, 초기 적응에 대해 5개의 볼륨과 1개의 볼륨을 사용할 수 있는 시나리오에서 각각 평균 Dice Similarity Coefficient가 0.14 및 0.10 향상되었습니다. SLM-SAM 2는 또한 과도한 전파에 대한 강력한 저항성을 보이며, 볼륨당 전파된 마스크를 수정하는 데 필요한 시간을 SAM 2에 비해 60.575% 줄여 분할 모델 개발을 위한 의학 영상의 보다 정확한 자동 주석 처리를 향한 중요한 발걸음을 내디뎠습니다.