# ExPath: Towards Explaining Targeted Pathways for Biological Knowledge Bases

### 저자

Rikuto Kotoge, Ziwei Yang, Zheng Chen, Yushun Dong, Yasuko Matsubara, Jimeng Sun, Yasushi Sakurai

### 개요

본 논문은 생물학적 데이터베이스 내 다양한 그래프(생물 네트워크)를 분류하기 위해 실험 데이터, 특히 아미노산 서열(AA-seqs)을 명시적으로 통합하는 새로운 경로 추론 프레임워크인 ExPath를 제안합니다.  ExPath는 세 가지 구성 요소로 이루어져 있습니다: (1) AA-seqs를 그래프에 인코딩 및 임베딩하는 대규모 단백질 언어 모델(pLM), (2) 그래프 신경망(GNN)과 상태 공간 시퀀스 모델링(Mamba)을 결합하여 지역적 상호 작용과 전역적 경로 수준 종속성을 모두 포착하는 PathMamba, (3) 훈련 가능한 경로 마스크를 통해 기능적으로 중요한 노드와 에지를 식별하는 서브그래프 학습 모듈인 PathExplainer.  본 논문은 기존의 AA-seq 데이터 처리 방식의 어려움을 극복하고, 분류에 더 많이 기여하는 링크를 표적 경로로 간주하여 생물학적 의미를 유지하는 경로를 추론합니다. 301개의 생물 네트워크 평가를 포함한 실험을 통해 ExPath에 의해 추론된 경로가 생물학적 의미를 유지함을 보여주며,  ML 지향적인 생물학적 평가와 새로운 지표를 제안합니다.  곧 301개의 정제된 생물 네트워크 데이터를 공개할 예정입니다.

### 시사점, 한계점

- **시사점:**

    - 기존 방식의 한계를 극복하고, 실험 데이터(AA-seqs)를 효과적으로 통합하여 생물학적 경로를 추론하는 새로운 프레임워크 ExPath 제시.

    - pLM, PathMamba, PathExplainer의 세 가지 모듈을 통해 AA-seqs 데이터 처리, 지역 및 전역적 상호작용 포착, 중요 노드 및 에지 식별을 효율적으로 수행.

    - ML 지향적인 생물학적 평가 및 새로운 지표 제안.

    - 301개의 생물 네트워크 평가를 통해 ExPath의 성능 및 생물학적 의미를 검증.

    - 공개될 301개의 정제된 생물 네트워크 데이터는 후속 연구에 기여할 것으로 예상.

- **한계점:**

    - 아직 공개되지 않은 301개 생물 네트워크 데이터의 정확성 및 대표성에 대한 검증 필요.

    - 제안된 새로운 지표의 일반화 가능성 및 타당성에 대한 추가 연구 필요.

    - ExPath의 성능이 다른 경로 추론 방법론과 비교 분석되어야 함.

    - 다양한 종류의 생물학적 데이터(예: 유전자 발현 데이터)를 통합하는 확장성에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2502.18026)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
