BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
Created by
Haebom
저자
Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
개요
본 논문은 생의학 연구에서 복잡한 분석 작업을 위해 대규모 구조화된 데이터베이스에 대한 의존도가 증가함에 따라, 특히 암묵적인 도메인 추론이 필요할 때 질적 과학 질문을 실행 가능한 SQL로 매핑하는 데 어려움을 겪는 기존의 text-to-SQL 시스템의 문제점을 다룹니다. 이를 해결하기 위해 실제 생의학 지식 기반에서 text-to-SQL 생성의 과학적 추론을 평가하도록 명시적으로 설계된 최초의 벤치마크인 BiomedSQL을 소개합니다. BiomedSQL은 유전자-질병 연관성, 오믹스 데이터의 인과 추론 및 약물 승인 기록을 통합한 조화된 BigQuery 지식 기반에 근거한 68,000개의 질문/SQL 쿼리/답변 트리플로 구성됩니다. 각 질문은 모델이 구문 번역에만 의존하는 것이 아니라 게놈 전체 유의성 임계값, 효과 방향성 또는 시험 단계 필터링과 같은 도메인별 기준을 추론해야 합니다. 다양한 오픈소스 및 클로즈드소스 LLM을 프롬프팅 전략 및 상호 작용 패러다임 전반에 걸쳐 평가한 결과, GPT-o3-mini는 59.0%의 실행 정확도를 달성한 반면, 사용자 정의 다단계 에이전트인 BMSQL은 62.6%를 달성했지만, 전문가 기준(90.0%)에는 크게 미치지 못하는 상당한 성능 차이를 보였습니다. BiomedSQL은 구조화된 생의학 지식 기반에 대한 강력한 추론을 통해 과학적 발견을 지원할 수 있는 text-to-SQL 시스템을 발전시키기 위한 새로운 기반을 제공합니다. 데이터셋은 https://huggingface.co/datasets/NIH-CARD/BiomedSQL 에서, 코드는 https://github.com/NIH-CARD/biomedsql 에서 공개적으로 이용 가능합니다.
시사점: 실제 생의학 지식 기반에서 text-to-SQL 생성을 위한 과학적 추론 평가를 위한 새로운 벤치마크(BiomedSQL) 제공. 생의학 데이터 분석을 위한 text-to-SQL 시스템 개선 방향 제시. 공개 데이터셋 및 코드 제공을 통한 연구 확장 가능성 증대.
•
한계점: 현재 최고 성능 모델(BMSQL)의 정확도가 전문가 수준에 미치지 못함 (62.6% vs 90.0%). BiomedSQL 벤치마크의 범위 및 복잡성이 향후 더욱 발전될 필요가 있음. 다양한 유형의 생의학 질문 및 데이터에 대한 일반화 가능성에 대한 추가 연구 필요.