본 논문은 의생명 연구 분야에서 데이터 과학의 중요성을 강조하며, 코딩 및 의료 데이터 분석 전문 지식을 필요로 하는 현실적인 어려움을 지적합니다. 대규모 언어 모델(LLM)이 의료 작업 지원 및 일반 코딩 테스트에서 우수한 성능을 보이는 것에 착안하여, 39개의 발표된 연구 분석에서 도출된 293개의 데이터 과학 코딩 과제(Python 128개, R 165개)로 구성된 벤치마크를 개발했습니다. 이 벤치마크는 실제 TCGA 유형의 유전체 및 임상 데이터를 사용합니다. 단순 프롬프트 방식의 LLM은 지침 준수, 데이터 이해, 표준 분석 절차 준수 등의 문제로 인해 최적이 아닌 성능을 보였습니다. 6개의 최첨단 LLM 및 고급 적응 방법을 벤치마킹한 결과, 단계별 데이터 분석 계획을 제공하는 chain-of-thought 프롬프트(코드 정확도 21% 향상)와 버그 있는 코드를 반복적으로 수정하는 self-reflection 방법(코드 정확도 11% 향상)이 특히 효과적임을 확인했습니다. 이러한 통찰력을 바탕으로 의료 전문가의 데이터 과학 워크플로우에 LLM을 통합하는 플랫폼을 개발하여 5명의 의료 전문가를 대상으로 사용자 연구를 수행했습니다. LLM이 프로그래밍 작업을 완전히 자동화할 수는 없지만, 프로그래밍 프로세스를 크게 간소화하며, 제출된 코드 솔루션의 80%가 LLM 생성 코드에서 가져왔고, 경우에 따라 최대 96%까지 재사용되었다는 결과를 얻었습니다. 결론적으로, 전문가 워크플로우에 통합될 때 LLM이 의생명 연구에서 데이터 과학 효율성을 향상시킬 수 있는 잠재력을 강조합니다.