Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Tourism Question Answer System in Indian Language using Domain-Adapted Foundation Models

Created by
  • Haebom
Category
Empty

저자

Praveen Gatla, Anushka, Nikita Kanwar, Gouri Sahoo, Rajesh Kumar Mundotiya

개요

본 논문은 바나라시(Varanasi) 관광 분야를 대상으로 하는 힌디어 기반 추출형 질의응답(QA) 시스템의 설계에 대한 첫 번째 종합 연구를 제시합니다. 10개의 관광 관련 하위 도메인(Ganga Aarti, Cruise, Food Court, Public Toilet, Kund, Museum, General, Ashram, Temple, Travel)을 대상으로 하며, 문화적 특성을 반영한 힌디어 QA 자원의 부재를 해결하고자 합니다. 7,715개의 힌디어 QA 쌍으로 구성된 데이터셋을 구축하고, Llama zero-shot prompting을 통해 27,455개의 쌍을 추가했습니다. BERT 및 RoBERTa를 기반으로 하는 프레임워크를 제안하며, Supervised Fine-Tuning (SFT) 및 Low-Rank Adaptation (LoRA)을 사용하여 매개변수 효율성과 성능을 최적화합니다. 여러 BERT 변형을 평가하여 저자원 도메인별 QA에 대한 적합성을 평가하고, F1, BLEU, ROUGE-L 평가 지표를 통해 답변 정확도와 언어 유창성 간의 균형을 분석합니다. LoRA 기반 미세 조정은 SFT에 비해 98%의 학습 가능한 매개변수를 줄이면서 경쟁력 있는 성능(85.3% F1)을 달성합니다. RoBERTa는 문화적으로 내재된 용어(예: Aarti, Kund)에 대한 맥락적 미묘함을 포착하는 데 있어 BERT 변형보다 우수한 성능을 보입니다.

시사점, 한계점

LoRA 기반 미세 조정을 통한 효율적인 파라미터 학습으로 저자원 환경에서 경쟁력 있는 성능 달성.
RoBERTa 모델이 문화적 맥락 정보를 더 잘 포착하여, 문화적으로 특화된 용어에 대한 이해도 향상.
힌디어 관광 분야의 QA 시스템 구축을 위한 기초 마련 및 문화적 맥락을 고려한 NLP 프레임워크의 중요성 강조.
데이터셋은 바나라시 관광에 한정되어 있어, 다른 관광 지역에 대한 일반화 어려움.
Llama zero-shot prompting으로 생성된 데이터의 품질에 대한 추가적인 검증 필요.
평가 지표 간의 상충 관계 및 최적화 전략에 대한 추가 연구 필요.
👍