Sign In

Can Small and Reasoning Large Language Models Score Journal Articles for Research Quality and Do Averaging and Few-shot Help?

Created by
  • Haebom
Category
Empty

저자

Mike Thelwall, Ehsan Mohammadi

개요

본 논문은 학술 저널 논문 평가를 위해 소형 LLM(Large Language Model) 및 추론 모델의 능력을 평가한다. ChatGPT, Gemini, Gemma3와 같은 대형 LLM의 성능은 입증되었지만, 더 작고 빠른 모델의 유용성을 검증하는 것이 목적이다. 2,780개의 의료, 건강 및 생명 과학 논문을 대상으로 Gemma3 변형, Llama4 Scout, Qwen3, Magistral Small, DeepSeek R1을 평가하고, 두 가지 골드 스탠다드를 사용하여 결과를 분석했다. 소형 LLM(4b 이상)과 추론 모델이 ChatGPT 4o-mini 및 Gemini 2.0 Flash와 유사한 성능을 보이며, 점수 평균화가 효과적임을 확인했다.

시사점, 한계점

시사점:
소형 LLM(4b 이상) 및 추론 모델도 학술 논문 평가에 유용하게 활용될 수 있다.
점수 평균화 기법을 통해 성능을 향상시킬 수 있다.
빠르고 효율적인 논문 평가 시스템 구축 가능성을 제시한다.
한계점:
1b 및 4b 파라미터 모델의 성능은 제한적일 수 있다.
few-shot 프롬프트 사용의 효과는 명확하지 않다.
추론 모델이 특별한 이점을 보이지 않았다.
👍