VDC-Agent는 사람의 주석이나 대형 교사 모델 없이 비디오 상세 캡셔닝을 위한 자체 진화 프레임워크입니다. 이 에이전트는 캡션 생성, 원칙 기반 점수 매기기(점수 및 텍스트 제안), 프롬프트 개선의 폐쇄 루프를 형성합니다. 캡션 품질이 저하되면 자체 반성 경로를 통해 이전 사고 과정을 활용하여 업데이트를 수정합니다. 레이블이 지정되지 않은 비디오에서 이 프로세스를 실행하면 (캡션, 점수) 쌍의 궤적이 생성됩니다. 궤적을 선호 튜플로 변환하고 JSON 구문 분석 오류가 있는 샘플을 필터링하여 18,886개의 자동 생성된 쌍을 포함하는 VDC-Agent-19K를 생성합니다. 그런 다음 기본 MLLM을 이 데이터세트에 대한 쉬운-어려운 커리큘럼 직접 선호 최적화를 사용하여 미세 조정합니다. Qwen2.5-VL-7B-Instruct를 기반으로 구축된 VDC-Agent-7B는 VDC 벤치마크에서 49.08%의 평균 정확도와 2.50 점수로 최첨단 성능을 달성하여 전문 비디오 캡셔너를 능가하고 기본 모델보다 +5.13%의 정확도와 +0.27 점수를 유사한 추론 비용으로 향상시켰습니다.