Sign In

Generative Artificial Intelligence in Bioinformatics: A Systematic Review of Models, Applications, and Methodological Advances

Created by
  • Haebom
Category
Empty

저자

Riasad Alvi, Sayeem Been Zaman, Wasimul Karim, Arefin Ittesafun Abian, Mohaimenul Azam Khan Raiaan, Saddam Mukta, Md Rafi Ur Rashid, Md Rafiqul Islam, Yakub Sebastian, Sami Azam

개요

생성 인공지능(GenAI)은 생물정보학에서 유전체학, 단백체학, 전사체학, 구조 생물학, 약물 발견 분야의 발전을 이끄는 변혁적인 접근 방식이 되었다. 이 리뷰는 이러한 발전을 체계적으로 파악하고 평가하기 위해 체계적 검토 및 메타 분석 방법에 대한 선호 보고 항목에 따라 6가지 연구 질문(RQs)을 제안했다. 방법론적 발전, 예측 성능 및 전문 분야에서 영향력 있는 GenAI 전략을 평가하고, 고급 모델링, 데이터 집약적 발견 및 통합 생물학적 분석을 위한 유망한 접근 방식을 식별하는 것이 목표이다. RQ1은 여러 생물정보학 하위 분야(서열 분석, 분자 설계 및 통합 데이터 모델링) 전반의 다양한 응용 분야를 강조하며, 패턴 인식 및 출력 생성을 통해 기존 방법보다 우수한 성능을 보여준다. RQ2는 적응형 전문 모델 아키텍처가 범용 모델보다 뛰어난 성능을 보였으며, 이는 대상 사전 훈련 및 컨텍스트 인식 전략에 기인한다. RQ3은 분자 분석 및 데이터 통합에 초점을 맞춰 생물정보학 분야에서 상당한 이점을 확인하며, 복잡한 분석에서 정확도를 향상시키고 오류를 줄인다. RQ4는 확립된 벤치마크에 의해 검증된 구조 모델링, 기능 예측 및 합성 데이터 생성의 개선 사항을 나타낸다. RQ5는 확장성 부족과 일반화에 영향을 미치는 데이터의 편향과 같은 주요 제약 조건을 제시하고, 강력한 평가와 생물학적 기반 모델링에 초점을 맞춘 미래 방향을 제안한다. RQ6은 분자 데이터 세트(UniProtKB 및 ProteinNet12), 세포 데이터 세트(CELLxGENE 및 GTEx) 및 텍스트 리소스(PubMedQA 및 OMIM)가 GenAI 모델의 훈련 및 일반화를 광범위하게 지원함을 조사한다.

시사점, 한계점

시사점:
GenAI는 다양한 생물정보학 분야에서 기존 방법보다 우수한 성능을 보인다.
특화된 모델 아키텍처가 범용 모델보다 우수한 성능을 보인다.
분자 분석 및 데이터 통합을 통해 정확도를 높이고 오류를 줄인다.
구조 모델링, 기능 예측 및 합성 데이터 생성에 대한 개선을 보인다.
UniProtKB, ProteinNet12, CELLxGENE, GTEx, PubMedQA, OMIM과 같은 다양한 데이터 세트가 GenAI 모델 훈련에 사용된다.
한계점:
확장성 부족.
데이터 편향으로 인한 일반화 문제.
향후 연구에서는 강력한 평가와 생물학적 기반 모델링에 집중해야 함.
👍