본 논문은 저자원 언어인 아쌈어를 위한 효율적인 이미지 캡션 생성 모델인 AC-Lite를 제시합니다. 기존의 계산 비용이 높은 모델들과 달리, AC-Lite는 ShuffleNetv2x1.5와 GRU를 사용하여 계산 요구량과 모델 파라미터 수를 줄였습니다. 더불어, 이중 선형 어텐션을 통합하여 성능을 향상시켰습니다. COCO-AC 데이터셋에서 82.3 CIDEr 점수를 달성했으며, 1.098 GFLOPs와 25.65M 파라미터로 에지 디바이스에서 작동 가능합니다. 이를 통해 저자원 언어 사용자를 위한 AI 기반 솔루션의 접근성을 높일 수 있습니다.