본 논문은 대규모 언어 모델(LLM)을 활용하여 팬-틸트-줌(PTZ) 카메라를 제어하는 프레임워크인 OPUS(Optimized Prompt-based Unified System)를 제시합니다. OPUS는 고수준 카메라 제어 API에서 키워드를 생성하고, 합성 데이터를 이용한 지도 학습 미세 조정(SFT)을 통해 대규모 폐쇄형 언어 모델의 지식을 소규모 모델로 전이시켜 비용 효율성을 높입니다. 이를 통해 GPT-4와 같은 대규모 모델과 비교 가능한 성능을 유지하면서 효율적인 에지 배포가 가능합니다. 또한, 여러 카메라의 데이터를 언어 모델을 위한 텍스트 설명으로 변환하여 특수한 감각 토큰이 필요 없도록 하여 환경 인식을 향상시킵니다. 벤치마크 테스트 결과, 기존의 언어 모델 기법과 복잡한 프롬프팅 방법보다 성능이 훨씬 뛰어나고, 고급 기법보다 35%, Gemini Pro와 같은 폐쇄형 모델보다 작업 정확도가 20% 더 높은 것으로 나타났습니다. OPUS는 직관적인 자연어 인터페이스를 통해 PTZ 카메라 작동을 단순화하여 명시적인 프로그래밍 없이도 대화형 방식으로 카메라 시스템과 상호 작용할 수 있도록 합니다.