스페인어 의료 자연어 처리 분야에 기여하기 위해, 공개적으로 이용 가능한 최대 규모의 임상 말뭉치 ClinText-SP와 최첨단 임상 인코더 언어 모델 RigoBERTa Clinical을 소개합니다. ClinText-SP는 의학 저널의 임상 사례 및 공유 과제의 주석이 달린 말뭉치 등 다양한 공개 소스에서 엄선된 풍부하고 다양한 데이터셋으로, 이전에는 접근이 어려웠던 데이터를 제공합니다. 이 종합적인 데이터셋을 이용한 도메인 적응적 사전 학습을 통해 개발된 RigoBERTa Clinical은 여러 임상 NLP 벤치마크에서 기존 모델을 능가하는 성능을 보입니다. 데이터셋과 모델을 공개함으로써, 임상 NLP의 발전을 촉진하고 궁극적으로 의료 응용 프로그램 개선에 기여할 수 있는 강력한 자원을 연구 커뮤니티에 제공하고자 합니다.