본 연구는 검색 증강 생성(RAG)을 활용하여 컴퓨터 과학 문헌 내 질문 응답(QA) 작업에서 다양한 LLM의 성능을 비교합니다. Mistral-7b-instruct, LLaMa2-7b-chat, Falcon-7b-instruct, Orca-mini-v3-7b 오픈 소스 LLM과 GPT-3.5를 비교했으며, 정확도, 정밀도, 코사인 유사성, 전문가 및 Gemini의 랭킹을 평가 지표로 사용했습니다.
시사점, 한계점
•
시사점:
◦
RAG와 결합된 GPT-3.5가 우수한 성능을 보였습니다.
◦
Mistral-7b-instruct가 오픈 소스 LLM 중 가장 뛰어난 성능을 보였습니다.
◦
오픈 소스 LLM도 GPT-3.5와 같은 상용 모델과 경쟁할 수 있습니다.
◦
Orca-mini-v3-7b는 가장 짧은 응답 지연 시간을 보였습니다.
•
한계점:
◦
Llama2-7b-chat은 가장 높은 응답 지연 시간을 보였습니다. (논문에 명시된 한계점은 아님)