본 논문은 인공지능 연구의 발전을 가속화하기 위해 효율적인 실험 재현의 중요성을 강조하며, 기존 방법들의 자동화에 대한 어려움, 특히 논문에 명시적으로 기술되지 않은 암묵적인 지식의 필요성을 지적합니다. 이를 해결하기 위해, 논문의 인용 논문에서 암묵적인 지식을 추출하는 'Paper Lineage Algorithm'을 제시하고, 이를 기반으로 연구 논문에 기술된 실험을 자동으로 재현하는 다중 에이전트 프레임워크인 'AutoReproduce'를 제안합니다. AutoReproduce는 재현 과정과 함께 단위 테스트를 생성하여 코드 실행 가능성을 높이며, 검증된 구현으로 주석이 달린 벤치마크인 'ReproduceBench'와 새로운 평가 지표를 도입하여 재현 및 실행 정확도를 평가합니다. 실험 결과, AutoReproduce는 기존 강력한 에이전트 기준 모델들을 다섯 가지 평가 지표 모두에서 최대 70% 이상의 성능 향상을 보였으며, 공식 구현과 비교하여 실행 가능한 실험 실행의 89.74%에서 평균 22.1%의 성능 차이를 보였습니다. 소스 코드는 https://github.com/AI9Stars/AutoReproduce 에서 공개될 예정입니다.