본 논문은 대규모 다중 모드 모델(LMM), 특히 GPT를 활용하여 이미지 주석 작업의 효율성을 높이는 새로운 프레임워크를 제시합니다. 기존의 이미지 주석 작업은 객체 선택과 라벨 지정에 많은 인력이 필요하여 시간이 오래 걸리고 효율성이 떨어지는 문제점을 가지고 있는데, 본 연구에서는 사람이 바운딩 박스를 통해 객체를 선택하면 LMM이 자동으로 관련 라벨을 생성하는 인간-AI 협업 프레임워크를 제안합니다. 이를 통해 객체 인식, 장면 설명, 세분화된 범주화 등 다양한 주석 작업에서 효율성을 향상시키는 것을 실험적으로 보여주며, 대규모 컴퓨터 비전 데이터 라벨링을 위한 확장 가능하고 효율적인 솔루션을 제공합니다. 또한, LMM을 주석 파이프라인에 통합함으로써 양방향 인간-AI 정렬을 발전시키고 정보 과부하로 인한 "끝없는 주석 작업" 문제를 완화하는 방안을 제시합니다.