본 연구는 무작위 대조 임상 시험(RCT)에서 편향 위험(RoB) 평가를 자동화하기 위해 대규모 언어 모델(LLM)을 활용하는 방법을 제시합니다. 기존의 수동적 프롬프트 설계의 한계를 극복하기 위해, DSPy와 GEPA 모듈을 사용하여 코드 기반의 구조화된 최적화를 통해 LLM 추론을 개선하는 프로그래밍 가능한 RoB 평가 파이프라인을 도입했습니다. 이 방법은 투명한 복제를 가능하게 하는 검토 가능한 실행 추적을 생성하며, 7개의 RoB 도메인에 걸쳐 공개 가중치 모델과 상업적 모델을 사용하여 100개의 RCT에서 평가되었습니다.