본 논문은 시각 및 언어 탐색(VLN)에서 시각적 관측과 명령어 세부 정보의 효과적인 통합에 어려움을 겪는 기존 방법들의 한계를 해결하기 위해 OIKG(Observation-graph Interaction and Key-detail Guidance) 프레임워크를 제안합니다. OIKG는 관측 그래프 상호작용 모듈과 주요 세부 정보 안내 모듈의 두 가지 핵심 구성 요소를 통해 각도 및 시각 정보를 분리하고 탐색 공간에서 에지 표현을 강화하며, 명령어에서 미세한 위치 및 객체 정보를 동적으로 추출하고 활용합니다. 이를 통해 보다 정확한 크로스 모달 정렬과 동적인 명령어 해석을 가능하게 하여 복잡한 탐색 명령어를 따르는 에이전트의 능력을 크게 향상시킵니다. R2R 및 RxR 데이터셋에 대한 광범위한 실험을 통해 OIKG가 여러 평가 지표에서 최첨단 성능을 달성함을 보여주어 더 나은 관측-명령어 정렬을 통한 탐색 정확도 향상에 대한 방법의 효과를 검증합니다.