본 논문은 대규모 언어 모델(LLM)이 이슬람 지침에 사용될 때 발생할 수 있는 문제점(본문 오인용, 법리 잘못 적용, 문화적 부적절한 답변 생성)을 분석하고, GPT-4o, Ansari AI, Fanar 모델의 성능을 평가합니다. 실제 이슬람 블로그의 프롬프트를 사용하여, 인용 검증을 위한 정량적 에이전트와 비교 평가를 위한 정성적 에이전트를 활용한 이중 에이전트 프레임워크를 구축했습니다. 평가 결과, GPT-4o가 이슬람 정확성 및 인용 부문에서 가장 높은 점수를 받았으며, Ansari AI가 그 뒤를 이었습니다. Fanar는 전반적으로 낮은 점수를 받았지만, 이슬람 및 아랍어 환경에 맞는 혁신적인 시도를 보였습니다.