Sign In

Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting

Created by
  • Haebom
Category
Empty

저자

Jiyue Jiang, Pengan Chen, Jiuming Wang, Dongchen He, Ziqin Wei, Liang Hong, Licheng Zong, Sheng Wang, Qinze Yu, Zixian Ma, Yanyu Chen, Yimin Fan, Xiangyu Shi, Jiawei Sun, Chuan Wu, Yu Li

개요

본 논문은 생물정보학 문제 해결을 위한 대규모 언어 모델(LLM)의 성능 평가를 위한 포괄적인 프롬프팅 기반 벤치마킹 프레임워크인 Bio-benchmark를 제시합니다. Bio-benchmark는 단백질, RNA, 약물, 전자 건강 기록 및 한약 등 다양한 분야를 포함하는 30개의 주요 생물정보학 과제를 포함합니다. GPT-4o 및 Llama-3.1-70b를 포함한 6개의 주요 LLM을 0-shot 및 few-shot Chain-of-Thought(CoT) 설정을 사용하여 미세 조정 없이 평가하여 각 모델의 고유한 기능을 밝힙니다. LLM 응답에서 답변을 추출하는 새로운 도구인 BioFinder를 소개하여 기존 방법보다 추출 정확도를 약 30% 향상시켰습니다. Bio-benchmark 결과를 바탕으로 현재 LLM에 적합한 생물학적 과제를 제시하고 개선이 필요한 특정 영역을 파악하며, 각 상황에 맞는 프롬프트 엔지니어링 전략을 제안합니다. 결과적으로 다양한 생물학적 응용 분야에 맞춤화된 보다 강력한 LLM 개발을 위한 권장 사항을 제공합니다.

시사점, 한계점

시사점:
생물정보학 분야에서 LLM의 성능을 종합적으로 평가할 수 있는 Bio-benchmark 프레임워크 제공.
LLM 응답에서 답변 추출 정확도를 향상시키는 BioFinder 도구 개발.
다양한 생물정보학 과제에서 LLM의 강점과 약점을 밝힘.
LLM 성능을 최적화하기 위한 표적 프롬프트 엔지니어링 전략 제시.
향상된 LLM 개발을 위한 권장 사항 제공.
한계점:
본 연구에서 평가된 LLM의 종류가 제한적일 수 있음.
Bio-benchmark에 포함된 과제의 수가 향후 더 확장될 필요가 있음.
BioFinder의 성능 향상은 특정 데이터셋에 국한될 가능성이 있음.
제안된 프롬프트 엔지니어링 전략의 일반화 가능성에 대한 추가 연구 필요.
👍