본 논문은 고령화 사회의 서비스 로봇을 위한 직관적인 다중 모달 인간-로봇 상호작용(HRI) 패러다임인 NVP-HRI를 제안한다. 기존의 HRI 시스템은 사전에 학습된 객체에만 치우쳐 새로운 객체를 다루는 데 어려움을 겪는다는 한계점을 가지고 있는데, NVP-HRI는 음성 명령과 지시적 자세를 결합하여 이 문제를 해결한다. Segment Anything Model (SAM)을 활용하여 시각적 단서와 깊이 데이터를 분석하고, 사전 학습된 SAM 네트워크를 통해 이전 지식 없이도 새로운 객체와의 제로샷 상호작용을 가능하게 한다. 또한, 대규모 언어 모델(LLM)을 통합하여 다중 모달 명령을 처리하고, 충돌 없는 궤적을 위한 객체 선택 및 장면 분포를 실시간으로 조정한다. LLM의 환각 위험을 줄이기 위해 필수 제어 구문으로 동작 순서를 규제한다. 유니버설 로봇을 사용한 다양한 실제 작업 평가 결과, 기존 제스처 제어보다 최대 59.2%의 효율 향상을 보였다. 코드와 디자인은 공개적으로 제공된다.