Sign In

AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language

Created by
  • Haebom
Category
Empty

저자

Pankaj Choudhury, Yogesh Aggarwal, Prithwijit Guha, Sukumar Nandi

개요

본 논문은 저자원 언어인 아쌈어를 위한 효율적인 이미지 캡션 생성 모델인 AC-Lite를 제시합니다. 기존의 계산 비용이 높은 모델들과 달리, AC-Lite는 ShuffleNetv2x1.5와 GRU를 사용하여 계산 요구량과 모델 파라미터 수를 줄였습니다. 더불어, 이중 선형 어텐션을 통합하여 성능을 향상시켰습니다. COCO-AC 데이터셋에서 82.3 CIDEr 점수를 달성했으며, 1.098 GFLOPs와 25.65M 파라미터로 에지 디바이스에서 작동 가능합니다. 이를 통해 저자원 언어 사용자를 위한 AI 기반 솔루션의 접근성을 높일 수 있습니다.

시사점, 한계점

시사점:
저자원 언어를 위한 효율적인 이미지 캡션 생성 모델을 제시함으로써, AI 기술의 접근성을 향상시켰습니다.
에지 디바이스에서의 작동 가능성을 보여줌으로써, 클라우드 기반 인프라에 대한 의존성을 줄였습니다.
ShuffleNetv2x1.5와 GRU의 활용을 통해 계산 효율성을 높일 수 있음을 보여주었습니다.
이중 선형 어텐션의 효과를 확인했습니다.
한계점:
아쌈어라는 특정 저자원 언어에 국한된 연구입니다. 다른 저자원 언어로의 일반화 가능성은 추가 연구가 필요합니다.
COCO-AC 데이터셋만 사용되었으므로, 다른 데이터셋에서의 성능은 검증되지 않았습니다.
모델의 성능 향상에 기여하는 요소들에 대한 더 자세한 분석이 필요할 수 있습니다.
👍