GP-GPT는 유전-표현형 지식 표현 및 유전체 관계 분석을 위해 설계된 최초의 전문 대형 언어 모델(LLM)이다. 300만 개 이상의 유전체학, 단백체학, 의학 유전학 용어로 구성된 방대한 코퍼스를 기반으로 두 단계에 걸쳐 미세 조정되었다. GP-GPT는 의료 유전학 정보 검색 및 유전체 정보 검색, 관계 결정과 같은 일반적인 유전체학 분석 작업에서 뛰어난 성능을 보인다.
시사점, 한계점
•
GP-GPT는 유전 질환 관계 연구를 개선하고 유전체학 및 의학 유전학 분야에서 정확하고 효율적인 분석을 가능하게 할 잠재력을 보여준다.
•
GP-GPT는 Llama2, Llama3 및 GPT-4를 포함한 최첨단 LLM보다 우수한 성능을 보인다.
•
GP-GPT에서 생물 인자 엔티티 표현의 미묘한 변화를 통해 LLM을 유전자-표현형 연구에 적용할 수 있는 기회를 제시한다.