Sign In

AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language

Created by
  • Haebom
Category
Empty

저자

Pankaj Choudhury, Yogesh Aggarwal, Prabhanjan Jadhav, Prithwijit Guha, Sukumar Nandi

개요

저자들은 영어 중심의 계산량이 많은 기존 이미지 캡션 생성 모델의 한계를 극복하고자, 저자원 아쌈어를 위한 계산 효율적인 모델인 AC-Lite를 제안합니다. AC-Lite는 경량화된 네트워크 구성 요소를 사용하여 계산 요구량을 줄입니다. 다양한 이미지 특징 추출기와 언어 디코더를 사용한 ablation 실험을 통해 ShuffleNetv2x1.5와 GRU 기반 언어 디코더, 그리고 bilinear attention의 조합이 최적의 성능을 제공함을 확인했습니다. COCO-AC 데이터셋에서 82.3 CIDEr 점수를 달성했으며, 2.45 GFLOPs와 22.87M 파라미터를 사용합니다.

시사점, 한계점

시사점: 저자원 언어를 위한 경량 이미지 캡션 생성 모델의 가능성을 보여줌. 계산 자원이 제한적인 환경에서도 이미지 캡션 생성 기술을 활용할 수 있는 길을 열어줌. 다양한 언어 및 접근성 장벽을 낮추는 데 기여할 수 있음.
한계점: 아쌈어라는 특정 저자원 언어에 국한된 연구임. 다른 저자원 언어로의 확장성에 대한 검증 필요. COCO-AC 데이터셋에 대한 성능만 제시되었으며, 다른 데이터셋에 대한 일반화 성능은 불확실함. 모델의 성능 향상을 위해 추가적인 연구가 필요할 수 있음.
👍