InterFeat: A Pipeline for Finding Interesting Scientific Features
Created by
Haebom
저자
Dan Ofer, Michal Linial, Dafna Shahaf
개요
본 논문은 구조화된 생의학 데이터에서 흥미로운 단순 가설(효과 방향과 잠재적 기저 메커니즘을 갖는 특징-표적 관계)의 자동 발견을 위한 통합 파이프라인을 제시합니다. 이 파이프라인은 기계 학습, 지식 그래프, 문헌 검색 및 대규모 언어 모델을 결합하여 "흥미로움"을 참신성, 유용성, 타당성의 조합으로 공식화합니다. 영국 바이오뱅크의 8가지 주요 질병에 대한 실험에서, 제시된 파이프라인은 문헌에 나타나기 수년 전의 위험 요소들을 일관되게 발견했습니다. 최상위 후보의 4053%가 흥미로운 것으로 검증되었으며, 이는 SHAP 기반 기준선의 07%와 비교됩니다. 전체적으로 109개의 후보 중 28%가 의학 전문가에게 흥미로운 것으로 평가되었습니다. 본 파이프라인은 "흥미로움"을 확장 가능하고 모든 표적에 대해 작동 가능하도록 하는 과제를 해결하며, 데이터와 코드는 공개되었습니다 (https://github.com/LinialLab/InterFeat).