투명 객체 인식은 컴퓨터 비전 연구의 주요 과제이며, 투명성으로 인해 깊이 추정과 의미론적 분할이 어렵습니다. 본 연구에서는 경계 정보를 의미론적 및 기하학적 특징 융합에 통합하여 파괴적인 상호 작용을 완화하는 Edge-Guided Spatial Attention (EGSA)를 제안합니다. 또한, RGB 이미지에서 파생된 경계에서 예측된 깊이 이미지에서 파생된 경계로 학습을 전환하는 다중 모드 점진적 훈련 전략을 제시합니다. EGSA는 Syn-TODD 및 ClearPose 벤치마크에서 기존 최고 성능 방법(MODEST)보다 깊이 정확도를 개선했으며, 투명 영역에서 가장 큰 개선을 보였습니다.