본 논문은 3D CT 스캔에서의 병변 분할과 같은 픽셀 수준의 작업에 이미지 수준의 지식을 전달하는 문제를 해결하기 위해, 새로운 다중 스케일 병변 수준 마스크-속성 정렬 프레임워크인 Malenia를 제시합니다. Malenia는 기존 방법들이 훈련 중에 접하지 못한 미세한 병변 특징과 질병 관련 텍스트 표현을 정렬하는 데 어려움을 겪는 문제를 해결하기 위해, 마스크 표현과 관련된 기본 속성 간의 호환성을 개선하고, 보이지 않는 병변의 시각적 특징을 이전에 보았던 것으로부터 학습된 확장 가능한 지식과 명시적으로 연결합니다. 또한, 상호 유익한 정보를 사용하여 시각적 및 텍스트적 특징을 향상시키는 Cross-Modal Knowledge Injection 모듈을 설계하여 분할 결과 생성을 효과적으로 안내합니다. 세 가지 데이터셋과 12가지 병변 범주에 걸친 포괄적인 실험을 통해 Malenia의 우수한 성능을 검증합니다.