From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research

Created by

Haebom

저자

Lukas Weidener, Marko Brkic, Chiara Bacci, Mihailo Jovanovic, Emre Ulgac, Alex Dobrin, Johannes Weniger, Martin Vlas, Ritvik Singh, Aakaash Meduri

개요

본 논문은 생의학 연구에서 인공지능 시스템의 평가 방식이 연구 협업자로서의 효과성을 제대로 측정하지 못한다는 점을 지적한다. 2018년 1월 1일부터 2025년 10월 31일까지의 연구를 대상으로 14개의 벤치마크를 분석한 결과, 현재의 벤치마크는 데이터 분석, 가설 검증, 실험 설계 등 개별적인 기능 평가에 집중되어 있음을 확인했다. 이에 따라, 대화 품질, 워크플로우 조정, 세션 연속성, 연구자 경험 등 연구 협업에 필수적인 요소를 고려한 프로세스 지향적 평가 프레임워크의 필요성을 제안한다.