본 논문은 자연어 처리(NLP) 분야에서 우려스러울 정도로 낮은 재현성 수준을 보여주는 기존의 재현성 연구들의 한계를 지적하고, 이를 개선하기 위한 정량적 재현성 평가 접근법인 QRA++를 제시합니다. QRA++는 세 가지 수준의 세분화된 재현성 정도를 연속적인 값으로 산출하고, 서로 다른 연구들 간에 직접 비교 가능한 재현성 척도를 활용하며, 실험 간 유사성 정도에 기반한 재현성 정도에 대한 기대치를 설정합니다. 이를 통해 보다 유익한 재현성 평가를 수행하고, 재현성이 더 좋거나 나쁜 원인에 대한 결론을 도출할 수 있도록 합니다. 세 가지 비교 가능한 실험 집합에 QRA++를 적용하여 재현성 정도가 실험 속성의 유사성뿐만 아니라 시스템 유형과 평가 방법에도 의존함을 보여줍니다.