Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Created by
  • Haebom

저자

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

개요

CountFormer은 시각적 반복과 구조적 관계를 인식하여 클래스에 의존하지 않고 객체를 계산하는 transformer 기반 프레임워크입니다. CounTR 아키텍처를 기반으로 하며, DINOv2를 시각적 인코더로 사용하여 풍부하고 공간적으로 일관된 특징 표현을 생성합니다. 위치 임베딩 융합을 통해 기하학적 관계를 보존하고, 경량 컨볼루션 디코더를 통해 밀도 맵으로 디코딩합니다. FSC-147 데이터 세트에서 평가한 결과, CountFormer은 복잡한 구조나 밀집된 장면에서 더 뛰어난 정확도를 보이며, 기존 최첨단 방법과 유사한 성능을 보였습니다.

시사점, 한계점

시사점:
DINOv2와 같은 파운데이션 모델을 통합하여 인간과 유사한 구조적 인식을 가능하게 함.
일반적이고 예시가 없는 객체 계산 패러다임으로의 진전.
구조적으로 복잡하거나 밀집된 장면에서 뛰어난 정확도 달성.
한계점:
논문 내용에 구체적인 한계점 언급 없음.
👍