본 연구는 대규모 언어 모델(LLM)을 자율 에이전트로 활용하여 기존 연구 결과의 재현 가능성을 평가하는 연구이다. National Alzheimer's Coordinating Center (NACC)의 "Quick Access" 데이터셋을 사용하여, 5개의 고인용 Alzheimer's 연구를 선정하고, GPT-4를 기반으로 한 자율 에이전트를 구성하여 해당 연구들의 결과 재현을 시도하였다. 에이전트는 논문의 초록, 방법론, 데이터 사전 설명만을 이용하여 코드를 작성하고 실행하였다. 5개 연구의 35개 주요 결과에 대한 재현율은 평균 53.2%였으며, 수치 및 범위 기반 결과는 원 논문과 차이를 보였다. 통계적 방법 및 매개변수 또한 원 논문과 상이하였으나, 전체적인 경향과 유의성은 일치하는 경우도 있었다. 결과적으로 LLM 기반 에이전트는 연구 기법 및 결과를 일부 재현하는 데 성공하였으나, 구현상의 결함이나 방법론적 세부 사항의 부족으로 실패한 경우도 있었다.