본 논문은 스마트 전력 시스템에서 중요한 역할을 하는 지침 계기 판독 인식을 다루며, 반사, 가림, 동적 시야각, 얇은 지침과 눈금 표시 간의 문제로 인해 기존 접근 방식이 취약하다는 점을 지적합니다. 이러한 문제를 해결하기 위해, 저자들은 RPM-10K라는 대규모 벤치마크 데이터셋을 제안하고, 이를 기반으로 물리적 관계 주입을 기반으로 하는 새로운 시각-언어 모델(MRLM)을 제안합니다. MRLM은 이미지 수준의 상관관계를 광범위하게 학습하는 대신, 지침과 눈금 사이의 기하학적 및 인과적 관계를 명시적으로 인코딩하여 정확한 숫자 판독을 생성합니다. 제안된 프레임워크는 새롭게 제안된 벤치마크 데이터셋에서 광범위한 실험을 통해 그 효과가 입증되었습니다.