본 논문은 유방 초음파(BUS)에 대한 자동 방사선 보고서 생성을 위한 BUSTR이라는 다중 작업 시각-언어 프레임워크를 제안합니다. 이 프레임워크는 이미지-보고서 쌍의 감독 없이도 구조화된 설명자(BI-RADS, 병리학, 조직학 등) 및 방사선학적 특징을 기반으로 보고서를 생성합니다. BUSTR은 다중 헤드 Swin 인코더를 사용하여 설명자 인식 시각 표현을 학습하고, 토큰 수준 교차 엔트로피와 입력 및 출력 표현 간 코사인 유사성 정렬 손실을 결합한 이중 수준 목표를 통해 시각적 및 텍스트 토큰을 정렬합니다. 두 개의 공개 BUS 데이터 세트(BrEaST 및 BUS-BRA)에서 BUSTR을 평가한 결과, 표준 자연어 생성 메트릭과 임상 효능 메트릭, 특히 BI-RADS 범주 및 병리학과 같은 주요 목표에 대해 일관되게 성능이 향상되었습니다.