Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zahra Khalila, Arbi Haza Nasution, Winda Monika, Aytug Onan, Yohei Murakami, Yasir Bin Ismail Radi, Noor Mohammad Osmani

개요

본 논문은 쿠란 연구와 관련된 질문에 답하는 등 민감하고 특정 영역의 과제에 대규모 언어 모델(LLM)을 적용할 때 정확하고 문맥에 충실한 응답이 중요함을 강조한다. 일반적인 목적의 LLM은 종종 환각(hallucination) 문제로 어려움을 겪는데, 이는 생성된 응답이 권위 있는 출처에서 벗어나 종교적 맥락에서 신뢰성에 대한 우려를 제기한다. 본 연구는 13개의 오픈소스 LLM(대형, 중형, 소형으로 분류)을 사용하여, 쿠란 수라에 대한 설명, 역사적 배경, 특징 등을 포함하는 설명적 데이터셋을 활용한 Retrieval-Augmented Generation (RAG) 방식을 통해 이 문제를 해결하고자 한다. 모델 평가는 인간 평가자에 의해 문맥 관련성, 답변 충실도, 답변 관련성 세 가지 측면에서 이루어졌다. 결과적으로 대형 모델이 소형 모델보다 질의 의미를 파악하고 정확하고 문맥에 기반한 응답을 생성하는 데 일관되게 우수한 성능을 보였으나, Llama3.2:3b 와 같이 최적화된 소형 모델 또한 우수한 충실도와 관련성을 보여주었다. 본 논문은 특정 영역 애플리케이션에서 LLM을 사용할 때 모델 크기, 계산 효율성, 응답 품질 간의 상충 관계를 조사한다.

시사점, 한계점

시사점:
대규모 언어 모델(LLM)을 특정 도메인(쿠란 연구)에 적용 시, RAG 기반 접근 방식이 정확하고 문맥에 맞는 응답 생성에 효과적임을 보여줌.
모델 크기와 성능 간의 상관관계를 확인하고, 최적화된 소형 모델의 가능성을 제시.
종교적 맥락에서 LLM의 신뢰성 향상에 기여할 수 있는 연구 결과 제시.
한계점:
사용된 데이터셋이 쿠란 연구에 특화되어 있어, 다른 도메인으로의 일반화 가능성 제한.
인간 평가자에 의존하는 주관적인 평가 방식 채택.
모델의 환각 문제에 대한 완전한 해결책 제시는 아님. (개선 가능성은 제시되었으나 완벽히 해결하지는 못함)
👍