본 논문은 인공지능 분야의 연구 재현성 문제를 해결하기 위해, 논문에서 인용된 참고문헌으로부터 암묵적인 지식을 추출하는 'Paper Lineage Algorithm'을 제시하고, 이를 기반으로 논문에 기술된 실험을 자동으로 재현하는 다중 에이전트 프레임워크인 'AutoReproduce'를 제안합니다. AutoReproduce는 재현 과정과 함께 단위 테스트를 생성하여 코드 실행 가능성을 높이며, 재현 및 실행 정확도를 평가하기 위한 새로운 평가 지표와 검증된 구현으로 구성된 벤치마크 ReproduceBench를 함께 제시합니다. 실험 결과, AutoReproduce는 기존 강력한 에이전트 기준 모델보다 5가지 평가 지표 모두에서 최대 70% 이상의 성능 향상을 보였으며, 공식 구현과 비교하여 실행 가능한 실험의 89.74%에서 평균 22.1%의 성능 차이를 보였습니다. 소스 코드는 https://github.com/AI9Stars/AutoReproduce 에서 공개될 예정입니다.