본 연구는 암 연구에서 수동적인 정보 추출의 비효율성을 해결하기 위해 자연어 처리(NLP)를 활용하여 전자 건강 기록(EHR)에서 관련 데이터를 자동으로 추출하는 방법을 제시한다. 폐암과 유방암을 대상으로, IIS La Fe 병원의 200건의 유방암 보고서와 400건의 폐암 보고서 데이터셋을 사용하여, Doccano 플랫폼을 통해 8가지 임상 개체를 수동으로 라벨링하였다. 스페인어로 사전 훈련된 RoBERTa 기반 생의학 언어 모델인 bsc-bio-ehr-en3 모델을 Transformers 아키텍처를 사용하여 미세 조정하여 NER(Named Entity Recognition)을 수행하였고, MET와 PAT와 같은 개체 식별에서 높은 성능을 보였으나, EVOL과 같이 빈도가 낮은 개체에서는 어려움을 보였다. GMV의 NLP 도구인 uQuery를 사용하여 개체를 식별하고 SNOMED 및 OMOP과 같은 표준 형식으로 변환하였다.