본 논문은 의료 초음파 영상의 해석 어려움을 해결하기 위해, 변환기 기반의 일단계 방법을 사용하여 초음파 영상의 장면 그래프(Scene Graph, SG)를 생성하는 방법을 제시합니다. 명시적인 객체 탐지 없이 초음파 영상의 내용을 설명하고 초음파 스캔을 안내하는 SG를 생성하며, 대규모 언어 모델(LLM)을 이용하여 사용자 질의에 따라 추상적인 SG 표현을 세련되게 다듬어 일반 사용자도 이해할 수 있는 설명을 생성합니다. 또한, 예측된 SG를 활용하여 현재 영상에서 누락된 해부학적 구조를 찾아 스캔을 안내함으로써, 일반 사용자가 더욱 표준화되고 완전한 해부학적 탐색을 수행할 수 있도록 지원합니다. 경동맥과 갑상선을 포함한 좌우 목 부위 영상을 대상으로 5명의 자원자를 통해 효과를 검증하였으며, 일반 사용자의 초음파 해석력 및 사용성을 향상시켜 초음파의 대중화에 기여할 가능성을 보여줍니다.