HPE-CogVLM: Advancing Vision Language Models with a Head Pose Grounding Task

Created by

Haebom

저자

Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu

💡 개요

본 논문은 기존 CNN 기반의 머리 자세 추정(HPE) 모델이 가진 한계를 극복하기 위해 Vision-Language Model(VLM)인 CogVLM의 객체 탐지 기반 기반 능력(grounding capability)을 활용하는 새로운 프레임워크 HPE-CogVLM을 제안한다. 직접적인 LoRA 미세 조정이나 일반적인 모델 병합 방식의 문제를 해결하기 위해, 높은 코사인 유사도 임계값과 '승자독식' 레이어 선택 전략을 사용하는 새로운 LoRA 기반 모델 병합 기법을 개발하였다. 이를 통해 HPE 정확도를 높이면서도 기존 객체 탐지 능력을 유지하여, HPE-CogVLM은 최첨단 CNN 모델 대비 Mean Absolute Error를 31.5% 감소시키는 성과를 달성했다.

🔑 시사점 및 한계

•

VLM의 객체 탐지 기반 능력을 활용하여 머리 자세 추정(HPE)의 정확도를 향상시킬 수 있는 새로운 접근 방식을 제시한다.

•

VLM의 원래 능력을 유지하면서 특정 태스크(HPE)를 효과적으로 통합하는 새로운 LoRA 기반 모델 병합 기법의 유효성을 입증한다.

•

제안된 HPE-CogVLM은 기존 SOTA CNN 모델 및 다른 VLM 기반 방법론 대비 뛰어난 HPE 성능을 보인다.

•

제안된 모델 병합 기법이 다양한 VLM 모델 및 태스크에 대한 일반화 가능성을 추가적으로 탐구할 필요가 있다.

PDF 보기

Made with Slashpage