본 논문은 BabyLM 2025 공유 과제 제약 조건 하에서 샘플 효율적인 언어 모델링을 위한 아키텍처 및 최적화 기법을 연구한다. 제안된 모델 BLaLM은 self-attention을 선형 시간 mLSTM 토큰 믹서로 대체하고, 짧은 컨볼루션, 동적 조절이 있는 슬라이딩 윈도우 attention, Hedgehog feature map과 같은 경량의 개선 사항을 탐색한다. 낮은 리소스 환경에서의 학습을 지원하기 위해 가독성과 교육적 구조를 강조하는 고품질 코퍼스를 큐레이션했다. STRICT 및 STRICT-SMALL 트랙 실험에서 선형 attention과 슬라이딩 윈도우 attention의 결합이 zero-shot 성능을 일관되게 향상시켰으며, Muon 옵티마이저는 수렴을 안정화시키고 AdamW보다 perplexity를 감소시켰다.