Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Created by
  • Haebom

저자

Amitava Das, Vinija Jain, Aman Chadha

개요

본 논문은 인간의 가치에 맞춰 미세 조정된 대규모 언어 모델(LLM)에서 발생하는 정렬 오류(alignment drift) 문제를 해결하기 위한 TraceAlign 프레임워크를 제시한다. TraceAlign은 적대적 프롬프트, 디코딩 섭동 또는 우회(jailbreak) 기법에 노출되었을 때 안전하지 않거나 정책 위반 완성을 생성하는 LLM의 정렬 오류의 근본 원인을 모델의 훈련 코퍼스에서 추적하는 통합 프레임워크이다. 핵심 구성 요소는 Belief Conflict Index (BCI)로, 접미사 배열 매칭을 사용하여 검색된 훈련 문서를 기반으로 생성된 구간과 정렬된 정책 간의 의미적 불일치를 정량화한다. TraceAlign은 TraceShield(추론 시 안전 필터), Contrastive Belief Deconfliction Loss(대조적 미세 조정 목적 함수), Prov-Decode(출처 인식 디코딩 전략) 세 가지 상호 보완적인 개입 방법을 제안하며, 이를 통해 정렬 오류를 최대 85%까지 줄이면서 표준 작업의 유용성은 유지한다. 또한 접미사 배열 구간 통계를 통해 오류 가능성에 대한 이론적 상한선을 도출하여 기억 빈도와 길이를 적대적 재활성화 위험과 연결한다.

시사점, 한계점

시사점:
LLM의 정렬 오류의 근본 원인을 훈련 데이터에서 추적하는 새로운 프레임워크(TraceAlign) 제시.
정렬 오류를 효과적으로 줄이는 세 가지 개입 방법(TraceShield, Contrastive Belief Deconfliction Loss, Prov-Decode) 제안.
정렬 오류 가능성에 대한 이론적 상한선 제시.
Alignment Drift Benchmark (ADB)를 통해 성능 평가.
오픈소스 공개를 통한 추가 연구 및 개발 장려.
한계점:
ADB의 범용성 및 일반화 가능성에 대한 추가 연구 필요.
TraceAlign의 성능은 훈련 데이터의 품질에 의존적일 수 있음.
BCI의 정확성 및 해석 가능성에 대한 추가 연구 필요.
계산 비용 및 효율성에 대한 추가적인 개선 필요.
👍