저자들은 영어 중심의 계산량이 많은 기존 이미지 캡션 생성 모델의 한계를 극복하고자, 저자원 아쌈어를 위한 계산 효율적인 모델인 AC-Lite를 제안합니다. AC-Lite는 경량화된 네트워크 구성 요소를 사용하여 계산 요구량을 줄입니다. 다양한 이미지 특징 추출기와 언어 디코더를 사용한 ablation 실험을 통해 ShuffleNetv2x1.5와 GRU 기반 언어 디코더, 그리고 bilinear attention의 조합이 최적의 성능을 제공함을 확인했습니다. COCO-AC 데이터셋에서 82.3 CIDEr 점수를 달성했으며, 2.45 GFLOPs와 22.87M 파라미터를 사용합니다.