본 논문은 시각적 관계 검출(VRD)에서 기존의 관계 검출 데이터만으로 학습된 모델이 새로운 관계에 대한 일반화 능력이 부족하다는 문제점을 지적한다. 이를 해결하기 위해, 저자들은 다양한 지시 데이터를 사용한 지시 조정(instruction tuning) 기반의 적응적 관계 조정 프레임워크(ART)를 제안한다. ART는 시각 언어 모델(VLM)을 지시 조정하고 전략적인 인스턴스 선택을 통해 VRD에 적용한다. VRD 데이터셋을 지시 조정 형식으로 변환하고 적응적 샘플링 알고리즘을 사용하여 정보가 풍부한 관계에 집중하면서 일반화 능력을 유지한다. 특히, 주어-목적어 박스가 주어지고 모델이 그 사이의 술어를 예측하는 관계 분류에 초점을 맞춘다. 홀드-인 세트에서 조정하고 다양한 복잡성의 여러 홀드-아웃 데이터셋에서 평가하여 기존 방법보다 성능이 크게 향상됨을 보이며, 기존 VRD 방법에는 없는 미지의 관계 개념을 추론하는 능력을 보여준다. 마지막으로, 예측된 관계를 사용하여 복잡한 장면을 분할하는 ART의 실용적인 가치를 보여준다.