본 논문은 다양한 크기의 영역에 대한 자연어 설명을 생성하는 영역 수준 캡션 생성 문제를 다룹니다. 기존 방법들이 다양한 크기의 영역에 대해 고유한 캡션을 생성하는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위해 다양한 크기의 영역 캡션 생성을 위한 대규모 데이터셋 URECA를 제시합니다. URECA 데이터셋은 물체, 부분, 배경 요소를 모두 포함하여 영역과 캡션 간의 고유하고 일관된 매핑을 보장합니다. 또한, 다단계 데이터 큐레이션 파이프라인을 통해 영역 선택과 캡션 생성을 단계적으로 개선하고, 각 단계에서 다중 모달 대규모 언어 모델(MLLM)을 활용하여 정확하고 의미적으로 다양한 캡션을 생성합니다. 이 데이터셋을 기반으로, 다양한 크기의 영역을 효과적으로 인코딩하는 새로운 캡션 모델 URECA를 제시합니다. URECA는 기존 MLLM에 대한 간단하지만 효과적인 수정을 통해 위치와 모양과 같은 공간적 특성을 유지하여 세분화되고 의미가 풍부한 영역 설명을 가능하게 합니다. 동적 마스크 모델링과 고해상도 마스크 인코더를 도입하여 캡션의 고유성을 향상시키며, 실험 결과 URECA가 URECA 데이터셋과 기존 영역 수준 캡션 생성 벤치마크에서 최첨단 성능을 달성하고 일반화 성능 또한 우수함을 보여줍니다.