Sign In

Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content

Created by
  • Haebom
Category
Empty

저자

Abdullah Mushtaq, Rafay Naeem, Ezieddin Elmahjub, Ibrahim Ghaznavi, Shawqi Al-Maliki, Mohamed Abdallah, Ala Al-Fuqaha, Junaid Qadir

개요

본 논문은 대규모 언어 모델(LLM)이 이슬람 지침에 사용될 때 발생할 수 있는 문제점(본문 오인용, 법리 잘못 적용, 문화적 부적절한 답변 생성)을 분석하고, GPT-4o, Ansari AI, Fanar 모델의 성능을 평가합니다. 실제 이슬람 블로그의 프롬프트를 사용하여, 인용 검증을 위한 정량적 에이전트와 비교 평가를 위한 정성적 에이전트를 활용한 이중 에이전트 프레임워크를 구축했습니다. 평가 결과, GPT-4o가 이슬람 정확성 및 인용 부문에서 가장 높은 점수를 받았으며, Ansari AI가 그 뒤를 이었습니다. Fanar는 전반적으로 낮은 점수를 받았지만, 이슬람 및 아랍어 환경에 맞는 혁신적인 시도를 보였습니다.

시사점, 한계점

시사점:
LLM의 이슬람 관련 콘텐츠 생성 능력을 평가하기 위한 프레임워크를 제시함.
GPT-4o, Ansari AI, Fanar 모델의 이슬람 지침 관련 성능을 비교 분석함.
신뢰할 수 있는 AI 개발을 위한 커뮤니티 주도 벤치마크의 필요성을 강조함.
한계점:
모델들은 정확한 이슬람 콘텐츠 및 인용을 신뢰성 있게 생성하는 데 여전히 미흡함.
연구는 초기 단계이며, 더 많은 연구와 개선이 필요함.
의학, 법, 언론 등 다른 민감한 분야에도 적용될 수 있는 잠재력을 가짐.
👍