Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision

Created by
  • Haebom
Category
Empty

저자

Yimei Zhang, Guojiang Shen, Kaili Ning, Tongwei Ren, Xuebo Qiu, Mengmeng Wang, Xiangjie Kong

개요

본 논문은 도시 지역 표현 학습을 개선하기 위해 긴 텍스트 인식과 노이즈 억제를 통해 도시 지역 표현 학습을 향상시키는 새로운 사전 훈련 프레임워크인 UrbanLN을 제안합니다. 복잡한 도시 장면에서 세밀한 시각적 의미와 긴 캡션을 정렬하기 위한 정보 보존 스트레칭 보간 전략과, 노이즈를 필터링하고 지식을 효과적으로 활용하기 위한 이중 레벨 최적화 전략을 소개합니다.

시사점, 한계점

시사점:
긴 텍스트를 인식하고 노이즈를 억제하여 도시 지역 표현 학습 성능을 향상시키는 새로운 프레임워크 제안.
긴 캡션과 세밀한 시각적 의미를 정렬하기 위한 정보 보존 스트레칭 보간 전략 도입.
노이즈를 효과적으로 처리하기 위한 이중 레벨 최적화 전략 (데이터 및 모델 레벨) 제시.
다양한 실제 도시와 다양한 다운스트림 작업에서 우수한 성능 입증.
한계점:
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않음. (논문에 구체적인 한계점에 대한 언급이 없음)
👍