본 논문은 언어 지시, 시각적 관찰 및 상호 작용을 기반으로 3D 객체의 기능을 지정하는 새로운 과제를 제시합니다. 인지 과학에서 영감을 얻은 이 과제를 지원하기 위해, 점, 이미지 및 언어 지시(AGPIL)를 포함하는 기능 지정 데이터셋을 수집했습니다. 데이터셋은 전체보기, 부분보기, 회전보기 관점에서 객체의 기능 추정치를 포함하여 관찰 방향, 객체 회전 또는 공간적 폐색으로 인한 부분적 관찰 문제를 해결합니다. 이 과제를 달성하기 위해, 2D 및 3D 공간 특징과 의미 특징을 융합하는 시각-언어 모델을 적용한 최초의 다중 모드, 언어 유도 3D 기능 지정 네트워크인 LMAffordance3D를 제안합니다. AGPIL에 대한 포괄적인 실험은, 심지어 미지의 실험 설정에서도 제안된 방법의 효과와 우수성을 보여줍니다.