VISUALCENT는 다중 사람 시각적 인간 분석의 일반화 및 확장성 제한을 해결하기 위한 통합 인간 자세 및 인스턴스 분할 프레임워크입니다. 중심점 기반의 바텀업 키포인트 탐지 패러다임을 활용하며, 디스크 표현과 KeyCentroid를 통합한 키포인트 히트맵을 사용하여 최적의 키포인트 좌표를 식별합니다. 통합 분할 작업을 위해, 명시적인 키포인트를 MaskCentroid라는 동적 중심점으로 정의하여 인체 움직임의 급격한 변화 또는 심각한 폐색 환경에서도 픽셀을 특정 인간 인스턴스에 신속하게 클러스터링합니다. COCO 및 OCHuman 데이터셋에 대한 실험 결과는 VISUALCENT의 정확성과 실시간 성능 이점을 보여주며, mAP 점수와 초당 실행 프레임 속도 측면에서 기존 방법을 능가합니다. 구현은 프로젝트 페이지에서 확인할 수 있습니다.