본 논문은 러시아어 코드 문서화를 위한 대규모 데이터셋 StRuCom을 제시합니다. StRuCom은 153,000개의 예제를 포함하며, 기존의 기계 번역된 영어 데이터셋과 달리 러시아어 GitHub 저장소의 수작업으로 작성된 주석과 합성적으로 생성된 주석을 결합하여 Python, Java, JavaScript, C#, Go 표준을 준수하도록 자동 검증을 거쳤습니다. Qwen2.5-Coder 모델(0.5B-7B)을 StRuCom으로 미세 조정한 결과, 기준 모델에 비해 chrf++ 및 BERTScore 지표가 통계적으로 유의미하게 향상되었습니다. 이는 러시아어 코드 주석 생성 모델의 성능 향상에 기여할 수 있음을 시사합니다.