본 논문은 지난 20년간 취약점 탐지 노력에도 불구하고 메모리 안전성 취약점이 여전히 심각한 문제임을 지적하며, 메모리 안전 언어로의 마이그레이션이 주요 해결책임을 제시합니다. C 프로그램의 메모리 안전성 문제 해결을 위해 C-to-Rust 변환이 주목받고 있지만, 이를 종합적으로 평가할 수 있는 데이터셋이 부족한 실정입니다. 본 연구는 대규모 데이터셋을 분석하는 데 드는 시간과 자원을 절감하기 위해, 실제 프로그램에서 대표성을 갖는 함수들을 선별하여 최소화된 데이터셋을 구축하는 방법을 제시합니다. 그 결과, 실제 프로그램 15,503개 함수 중에서 C-to-Rust 변환을 대표하는 2,905개 함수를 포함하는 C2RUST-BENCH 데이터셋을 구축하였습니다.