본 논문은 오픈소스 사전 훈련된 거대 언어 모델(LLM)을 이용하여 과학 연구의 전 과정을 자동화하는 가능성을 탐구합니다. CycleResearcher와 CycleReviewer라는 두 개의 모델로 구성된 반복적 선호도 학습 프레임워크를 제시합니다. CycleResearcher는 문헌 검토부터 논문 작성까지 연구 작업을 수행하고, CycleReviewer는 동료 심사 과정을 시뮬레이션하여 강화 학습을 통해 반복적인 피드백을 제공합니다. 실제 기계 학습 연구 및 동료 심사 역학을 반영하는 Review-5k와 Research-14k라는 두 개의 새로운 데이터셋을 개발하여 모델을 훈련했습니다. 실험 결과, CycleReviewer는 논문 점수 예측에서 인간 심사자 대비 평균 절대 오차(MAE)를 26.89% 줄였으며, CycleResearcher가 생성한 논문은 시뮬레이션된 동료 심사에서 5.36점을 받아 인간 전문가의 preprint 수준(5.24)과 비교적 경쟁력 있는 결과를 보였습니다. 본 연구는 윤리적 안전장치와 AI 기반 연구 역량 탐색을 포함하여 완전 자동화된 과학 연구를 향한 중요한 발걸음을 내딛었습니다. 코드, 데이터셋, 모델 가중치는 공개되었습니다.