CountFormer은 시각적 반복과 구조적 관계를 인식하여 클래스에 의존하지 않고 객체를 계산하는 transformer 기반 프레임워크입니다. CounTR 아키텍처를 기반으로 하며, DINOv2를 시각적 인코더로 사용하여 풍부하고 공간적으로 일관된 특징 표현을 생성합니다. 위치 임베딩 융합을 통해 기하학적 관계를 보존하고, 경량 컨볼루션 디코더를 통해 밀도 맵으로 디코딩합니다. FSC-147 데이터 세트에서 평가한 결과, CountFormer은 복잡한 구조나 밀집된 장면에서 더 뛰어난 정확도를 보이며, 기존 최첨단 방법과 유사한 성능을 보였습니다.