본 논문은 생물정보학 문제 해결을 위한 대규모 언어 모델(LLM)의 성능 평가를 위한 포괄적인 프롬프팅 기반 벤치마킹 프레임워크인 Bio-benchmark를 제시합니다. Bio-benchmark는 단백질, RNA, 약물, 전자 건강 기록 및 한약 등 다양한 분야를 포함하는 30개의 주요 생물정보학 과제를 포함합니다. GPT-4o 및 Llama-3.1-70b를 포함한 6개의 주요 LLM을 0-shot 및 few-shot Chain-of-Thought(CoT) 설정을 사용하여 미세 조정 없이 평가하여 각 모델의 고유한 기능을 밝힙니다. LLM 응답에서 답변을 추출하는 새로운 도구인 BioFinder를 소개하여 기존 방법보다 추출 정확도를 약 30% 향상시켰습니다. Bio-benchmark 결과를 바탕으로 현재 LLM에 적합한 생물학적 과제를 제시하고 개선이 필요한 특정 영역을 파악하며, 각 상황에 맞는 프롬프트 엔지니어링 전략을 제안합니다. 결과적으로 다양한 생물학적 응용 분야에 맞춤화된 보다 강력한 LLM 개발을 위한 권장 사항을 제공합니다.
시사점, 한계점
•
시사점:
◦
생물정보학 분야에서 LLM의 성능을 종합적으로 평가할 수 있는 Bio-benchmark 프레임워크 제공.