본 논문은 독일의 수동적인 종양 기록 시스템을 개선하기 위해 11개의 오픈소스 대규모 언어 모델(LLM)을 평가한 연구 결과를 제시한다. 700억 개까지 다양한 매개변수를 가진 LLM들을 사용하여 종양 진단 식별, ICD-10 코드 할당, 최초 진단 날짜 추출 등 세 가지 기본 작업에 대한 성능을 평가하였다. 익명화된 비뇨기과 의사의 메모를 기반으로 제작된 주석이 달린 데이터셋을 사용하였으며, 다양한 프롬프팅 전략을 활용하여 모델의 성능을 분석하였다. Llama 3.1 8B, Mistral 7B, Mistral NeMo 12B 모델이 우수한 성능을 보였으며, 70억 개 미만 매개변수를 가진 모델은 성능이 현저히 낮았다. 70억~120억 매개변수 모델이 성능과 자원 효율성 측면에서 최적의 균형을 제공할 수 있음을 시사하며, 추가적인 미세 조정과 프롬프트 엔지니어링을 통해 임상 문서화에 활용될 가능성을 제시한다. 평가 코드와 데이터셋을 공개하여 독일어 의료 NLP 분야의 벤치마크 부족 문제 해결에 기여한다.