본 논문은 물리적 사건과 그 인과 관계에 대한 추론이 가능한 기계를 구축하는 것이 물리적 세계와의 유연한 상호작용에 중요함을 강조합니다. 기존의 물리적 및 인과 추론 벤치마크는 대부분 합성적으로 생성된 사건과 인과 관계에 대한 합성 자연어 설명에만 기반하여 다양성 부족 및 인간의 판단과 다른 수동 정의된 휴리스틱 기반의 인과 관계라는 문제점을 지닙니다. 이를 해결하기 위해, 본 논문에서는 인간 라벨이 있는 물리적 사건의 인과 판단을 위한 비디오 추론 데이터셋인 CLEVRER-Humans 벤치마크를 제시합니다. 데이터 수집 효율을 높이기 위해 반복적인 이벤트 클로즈 작업과 신경망 언어 생성 모델 기반의 데이터 증강 기법을 사용하여 Causal Event Graphs (CEGs)를 생성하고 기존 연구와의 일관성을 위해 질문과 답변으로 변환합니다. 마지막으로, CLEVRER-Humans 질문 응답을 위한 기준 접근 방식을 연구하여 벤치마크가 제시하는 어려움을 강조합니다.