본 논문은 도시 지역 표현 학습을 개선하기 위해 긴 텍스트 인식과 노이즈 억제를 통해 도시 지역 표현 학습을 향상시키는 새로운 사전 훈련 프레임워크인 UrbanLN을 제안합니다. 복잡한 도시 장면에서 세밀한 시각적 의미와 긴 캡션을 정렬하기 위한 정보 보존 스트레칭 보간 전략과, 노이즈를 필터링하고 지식을 효과적으로 활용하기 위한 이중 레벨 최적화 전략을 소개합니다.
시사점, 한계점
•
시사점:
◦
긴 텍스트를 인식하고 노이즈를 억제하여 도시 지역 표현 학습 성능을 향상시키는 새로운 프레임워크 제안.
◦
긴 캡션과 세밀한 시각적 의미를 정렬하기 위한 정보 보존 스트레칭 보간 전략 도입.
◦
노이즈를 효과적으로 처리하기 위한 이중 레벨 최적화 전략 (데이터 및 모델 레벨) 제시.
◦
다양한 실제 도시와 다양한 다운스트림 작업에서 우수한 성능 입증.
•
한계점:
◦
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않음. (논문에 구체적인 한계점에 대한 언급이 없음)