본 논문은 다중 모달 대규모 언어 모델(MLLM)의 객체 방향 이해 능력 향상을 위한 새로운 방법인 자기중심적 지시 조정(egocentric instruction tuning)을 제안합니다. 기존 MLLM은 훈련 데이터의 일관되지 않은 방향 주석으로 인해 객체 방향을 정확하게 해석하는 데 어려움을 겪는데, 이를 해결하기 위해 사용자의 자기중심적 관점에서 도출된 일관된 주석 표준을 기반으로 MLLM의 방향 이해를 사용자의 관점과 정렬하는 방법을 제시합니다. MLLM의 객체 세부 사항 인식 능력과 사전 지식을 활용하여 자기중심적 지시 데이터를 생성하고, 이를 사용하여 지시 조정을 수행하여 모델의 정확한 방향 해석 능력을 향상시킵니다. 또한 다양한 도메인에서 수집한 이미지를 사용하여 세 가지 과제에 걸쳐 MLLM의 방향 이해를 평가하는 벤치마크인 EgoOrientBench를 소개합니다. 실험 결과, 자기중심적 지시 조정은 전체 MLLM 성능을 저해하지 않으면서 방향 이해를 크게 향상시키는 것을 보여줍니다. 생성된 지시 데이터와 벤치마크 데이터셋은 GitHub에서 공개됩니다.