본 논문은 약물 승인 결과를 조기에 예측하여 연구 투자를 최적화하기 위해 추론 기반 대규모 언어 모델인 DrugReasoner를 제시합니다. LLaMA 아키텍처를 기반으로 구축되고 GRPO(group relative policy optimization)로 미세 조정된 DrugReasoner는 분자 기술자를 비교 추론과 통합하여 유사한 구조의 승인 및 비승인 화합물과 비교하여 예측과 함께 단계별 근거 및 신뢰도 점수를 생성합니다. 검증 세트에서 AUC 0.732, F1 점수 0.729, 테스트 세트에서 AUC 0.725, F1 점수 0.718을 달성하여 로지스틱 회귀, SVM, k-NN과 같은 기존 기준 모델보다 우수한 성능을 보였고, XGBoost와도 경쟁력 있는 성능을 보였습니다. 외부 독립 데이터 세트에서도 ChemAP 모델을 능가하는 AUC 0.728 및 F1 점수 0.774를 달성하며 높은 정밀도와 균형 잡힌 민감도를 유지하여 실제 시나리오에서의 강건성을 입증했습니다. DrugReasoner는 경쟁력 있는 예측 정확도를 제공할 뿐만 아니라 추론 결과를 통해 투명성을 높여 AI 지원 신약 개발의 주요 병목 현상을 해결합니다.