SEMT: Static-Expansion-Mesh Transformer Network Architecture for Remote Sensing Image Captioning
Created by
Haebom
저자
Khang Truong, Lam Pham, Hieu Tang, Jasmin Lampert, Martin Boyer, Son Phan, Truong Nguyen
개요
본 논문은 원격 감지 이미지 캡션 생성(RSIC)을 위한 트랜스포머 기반 네트워크 아키텍처를 제시합니다. 정적 확장, 메모리 증강 자기 주의, 메시 트랜스포머 등 여러 기법을 평가하고 통합하여 UCM-Caption과 NWPU-Caption 두 개의 원격 감지 이미지 데이터셋을 사용하여 모델을 평가했습니다. 제안된 최고 성능 모델은 대부분의 평가 지표에서 최첨단 시스템을 능가하며, 실제 원격 감지 이미지 시스템에 적용될 가능성을 보여줍니다.