Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection

Created by
  • Haebom
Category
Empty

저자

Maryam Bala, Amina Imam Abubakar, Abdulhamid Abubakar, Abdulkadir Shehu Bichi, Hafsa Kabir Ahmad, Sani Abdullahi Sani, Idris Abdulmumin, Shamsuddeen Hassan Muhamad, Ibrahim Said Ahmad

개요

본 논문은 다국어 대규모 언어 모델(LLM) 환각 및 관련 과잉 생성 오류 공유 과제인 MU-SHROOM에 대한 연구 결과를 제시합니다. 14개 언어로 된 LLM 출력에서 환각을 구성하는 특정 텍스트 구간을 감지하는 과제이며, 특히 영어에 대한 세부적인 모델 인식 환각 발생 및 심각도 이해를 목표로 합니다. 400개의 합성 데이터셋을 사용하여 ModernBERT 모델을 미세 조정하여 자연어 추론을 수행하였고, IoU 점수 0.032와 상관관계 점수 0.422를 달성했습니다. 이는 모델의 신뢰도 점수와 실제 환각 존재 간의 중간 정도의 양의 상관관계를 나타냅니다. 낮은 IoU 점수는 예측된 환각 구간과 실제 주석 간의 겹침이 상대적으로 낮음을 의미합니다. 환각 감지는 복잡하고 미묘하게 나타나 정확한 경계를 파악하기 어렵기 때문에 성능은 예상된 수준입니다.

시사점, 한계점

시사점: LLM의 환각 감지 과제의 어려움과 그에 대한 모델 기반 접근의 필요성을 보여줍니다. 모델의 신뢰도 점수와 환각 존재 간의 상관관계를 확인했습니다. 다국어 환각 감지 연구의 기반을 마련했습니다.
한계점: 낮은 IoU 점수는 모델의 정확도가 낮음을 시사합니다. 합성 데이터셋을 사용하여 모델을 학습했기 때문에 실제 데이터에 대한 일반화 성능이 제한적일 수 있습니다. 환각의 미묘한 특성으로 인해 정확한 경계 식별에 어려움을 겪었습니다. 샘플 수(400개)가 제한적입니다.
👍