본 논문은 학술 저널 논문 평가를 위해 소형 LLM(Large Language Model) 및 추론 모델의 능력을 평가한다. ChatGPT, Gemini, Gemma3와 같은 대형 LLM의 성능은 입증되었지만, 더 작고 빠른 모델의 유용성을 검증하는 것이 목적이다. 2,780개의 의료, 건강 및 생명 과학 논문을 대상으로 Gemma3 변형, Llama4 Scout, Qwen3, Magistral Small, DeepSeek R1을 평가하고, 두 가지 골드 스탠다드를 사용하여 결과를 분석했다. 소형 LLM(4b 이상)과 추론 모델이 ChatGPT 4o-mini 및 Gemini 2.0 Flash와 유사한 성능을 보이며, 점수 평균화가 효과적임을 확인했다.