본 논문은 2025년 CVPR Ego4D EgoSchema Challenge에서 3위를 차지한 방법론을 제시합니다. 기존의 HCQA 프레임워크를 확장하여 자기중심 비디오 질의응답에서 답변 예측의 신뢰성을 향상시키는 데 중점을 두었습니다. 다양한 예측을 생성하기 위해 다중 소스 집계 전략을 도입하고, 신뢰도 기반 필터링 메커니즘을 통해 높은 신뢰도의 답변을 직접 선택합니다. 신뢰도가 낮은 경우에는 추가적인 시각 및 문맥 분석을 수행하는 세분화된 추론 모듈을 통합하여 예측을 개선합니다. EgoSchema 블라인드 테스트 세트에서 5,000개 이상의 사람이 직접 만든 객관식 질문에 대해 77%의 정확도를 달성하여 작년 우승 솔루션과 대부분의 참가팀을 능가했습니다. 코드는 https://github.com/Hyu-Zhang/HCQA 에서 확인할 수 있습니다.