본 논문은 기존 CNN 기반의 머리 자세 추정(HPE) 모델이 가진 한계를 극복하기 위해 Vision-Language Model(VLM)인 CogVLM의 객체 탐지 기반 기반 능력(grounding capability)을 활용하는 새로운 프레임워크 HPE-CogVLM을 제안한다. 직접적인 LoRA 미세 조정이나 일반적인 모델 병합 방식의 문제를 해결하기 위해, 높은 코사인 유사도 임계값과 '승자독식' 레이어 선택 전략을 사용하는 새로운 LoRA 기반 모델 병합 기법을 개발하였다. 이를 통해 HPE 정확도를 높이면서도 기존 객체 탐지 능력을 유지하여, HPE-CogVLM은 최첨단 CNN 모델 대비 Mean Absolute Error를 31.5% 감소시키는 성과를 달성했다.