본 논문은 독일의 수동적인 종양 기록 시스템을 개선하기 위해 11개의 오픈소스 대규모 언어 모델(LLM)을 평가한 연구 결과를 제시한다. 700억 개 매개변수 규모의 모델들을 대상으로, 종양 진단 식별, ICD-10 코드 할당, 최초 진단 날짜 추출 등 세 가지 기본 작업에 대한 성능을 평가하였다. 익명화된 비뇨기과 의사 노트를 기반으로 구축된 데이터셋을 사용하여 다양한 프롬프팅 전략을 실험하였다. Llama 3.1 8B, Mistral 7B, Mistral NeMo 12B 모델이 우수한 성능을 보였으며, 70억 매개변수 미만의 모델은 성능이 현저히 낮았다. 70억~120억 매개변수 규모의 모델이 성능과 자원 효율성 측면에서 최적의 균형을 제공할 수 있음을 시사한다. 본 연구는 독일어 의료 NLP 분야의 데이터 부족 문제를 해결하기 위해 데이터셋을 공개하고, 오픈소스 LLM이 종양 기록 자동화에 큰 잠재력을 가짐을 보여준다.