Trong bài báo này, chúng tôi đề xuất một phương pháp học tự giám sát mới để phân đoạn ngữ nghĩa ảnh vệ tinh. Không giống như các phương pháp dựa trên tái tạo như Bộ mã hóa tự động có mặt nạ (MAE) hiện có, chúng tôi áp dụng phương pháp LOCA (nhận biết vị trí) dựa trên dự đoán vị trí cho dữ liệu đa phương thức của ảnh vệ tinh. Cụ thể, chúng tôi mở rộng nhóm kênh của SatMAE từ đa phổ sang đa phương thức và giới thiệu mặt nạ chú ý cùng nhóm để tăng cường tương tác giữa các phương thức. Chúng tôi nâng cao khả năng suy luận không gian tập trung vào định vị thông qua dự đoán vị trí bản vá tương đối. Chúng tôi chứng minh rằng phương pháp này vượt trội đáng kể so với phương pháp học tự giám sát dựa trên tái tạo hiện có trên tập dữ liệu lập bản đồ lũ lụt Sen1Floods11. Kết quả là, chúng tôi chứng minh rằng tác vụ dự đoán vị trí được áp dụng đúng cách cho ảnh vệ tinh đa phương thức sẽ học được các biểu diễn hiệu quả hơn cho phân đoạn ngữ nghĩa ảnh vệ tinh so với phương pháp dựa trên tái tạo.