VRBench는 기존 평가의 한계를 극복하여 대규모 모델의 다단계 추론 능력을 평가하기 위해 제작된 최초의 장편 영상 벤치마크입니다. 평균 1.6시간 길이의 960개의 장편 영상과 8,243개의 사람이 라벨링한 다단계 질문-응답 쌍, 그리고 시간 정보가 포함된 25,106개의 추론 단계로 구성됩니다. 전문가 간의 상호 검토를 포함한 다단계 필터링 프로세스를 통해 플롯 일관성을 우선시하여 영상을 엄선했습니다. 일관된 추론 체인을 생성하는 인간-AI 협업 프레임워크를 개발했으며, 각 체인은 시간적 기반을 갖는 여러 단계(이벤트 속성 지정, 암시적 추론 등 7가지 유형)를 필요로 합니다. VRBench는 결과와 프로세스 수준 모두에서 모델을 평가하는 다단계 평가 파이프라인을 설계합니다. 최종 결과에 대한 객관식 문제 외에도, 여러 차원에서 추론 체인의 질을 종합적으로 평가하기 위해 진행 수준 LLM 기반 점수 측정 기준을 제안합니다. VRBench에서 12개의 LLM과 19개의 VLM을 광범위하게 평가하여 다단계 추론 분야를 발전시키는 귀중한 통찰력을 제공합니다.
시사점, 한계점
•
시사점:
◦
장편 영상을 활용한 새로운 다단계 추론 벤치마크 VRBench 제시
◦
시간적 추론 및 절차적 타당성을 고려한 종합적인 평가 제공
◦
인간-AI 협업 프레임워크를 통한 정교한 추론 체인 생성
◦
다양한 LLM 및 VLM에 대한 광범위한 평가 및 분석 결과 제시
◦
진행 수준 LLM 기반 점수 측정 기준 제안을 통한 추론 과정 평가 가능성 제시
•
한계점:
◦
VRBench의 규모(960개 영상)가 다른 벤치마크에 비해 상대적으로 작을 수 있음.
◦
현재 평가 대상 모델이 주로 LLM과 VLM에 국한됨. 다른 유형의 모델에 대한 일반화 가능성에 대한 추가 연구 필요.