본 논문은 의료 분야에서 대규모 언어 모델(LLM)의 잠재력을 평가하기 위해, 특히 안전한 적용을 위한 전제 조건인 임상 텍스트 오류 감지 및 수정 능력을 평가합니다. 이를 위해 일본어/영어를 대상으로 하는 교차 언어 벤치마크인 MedRECT를 소개합니다. MedRECT는 오류 감지, 오류 위치 파악, 오류 수정의 세 가지 하위 작업으로 구성됩니다. 일본 의사 면허 시험(JMLE)과 엄선된 영어 자료를 기반으로 자동화된 파이프라인을 통해 구축되었으며, MedRECT-ja (663개 텍스트)와 MedRECT-en (458개 텍스트)을 생성했습니다. 9개의 최신 LLM을 평가한 결과, 추론 모델이 표준 아키텍처보다 성능이 우수하며, 교차 언어 평가를 통해 영어에서 일본어로의 성능 격차가 발견되었습니다. LoRA fine-tuning을 통해 오류 수정 성능이 향상되었고, fine-tuned 모델은 구조화된 의료 오류 수정 작업에서 전문가의 성능을 능가했습니다. MedRECT는 안전한 의료 LLM 개발을 위한 재현 가능한 프레임워크와 리소스를 제공합니다.