[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training

Created by
  • Haebom

저자

Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi

개요

본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제, 즉 사실과 다르거나 무관한 출력을 생성하는 문제를 다룹니다. 연구진은 Pythia 모델 시리즈를 사용하여 훈련 역학의 불확실성과 환각 발생 간의 관계를 조사했습니다. 훈련 과정에서 상당한 변동성을 확인하고, 이를 해결하기 위해 변동성이 큰 임베딩 인덱스를 결정적으로 제거하는 새로운 훈련 프로토콜인 Sensitivity Dropout (SenD)를 제안합니다. 또한 기존 EigenScore보다 2배 빠른 비지도 학습 환각 탐지 지표인 Efficient EigenScore (EES)를 개발하여 SenD에 통합했습니다. SenD는 Pythia와 Llama 모델의 테스트 시간 신뢰도를 최대 17% 향상시키고, Wikipedia, 의학, 법률, 코딩 분야에서 사실 정확도를 높이는 동시에 하위 작업 성능에는 영향을 미치지 않았습니다.

시사점, 한계점

시사점:
LLM의 환각 문제를 해결하기 위한 새로운 훈련 기법인 SenD 제시.
SenD는 훈련 과정의 불확실성을 줄여 환각을 감소시킴.
효율적인 비지도 학습 환각 탐지 지표인 EES 개발.
Pythia 및 Llama 모델의 신뢰도 및 사실 정확도 향상 확인.
하위 작업 성능 저하 없이 환각 감소 효과 달성.
한계점:
SenD의 효과는 Pythia와 Llama 모델에 국한되어 다른 LLM 아키텍처에 대한 일반화 가능성은 추가 연구 필요.
EES의 성능은 기존 EigenScore와 비교하여 2배 빠르지만, 절대적인 계산 비용은 여전히 고려해야 할 요소.
다양한 환각 유형에 대한 SenD의 효과 분석이 추가적으로 필요.
👍