Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Polarity-Aware Probing for Quantifying Latent Alignment in Language Models

Created by
  • Haebom
Category
Empty

저자

Sabrina Sadiekh, Elena Ericheva, Chirag Agarwal

개요

Contrast-Consistent Search (CCS)와 같은 비지도 프로브가 모델 정렬을 신뢰성 있게 평가할 수 있는지 여부를 조사합니다. 유해한 문장과 안전한 문장에 대한 CCS의 민감도를 검사하고, 극성 반전 하에서 모델의 내부 표현이 일관성을 유지하는지 평가하는 방법인 Polarity-Aware CCS (PA-CCS)를 소개합니다. Polar-Consistency와 Contradiction Index라는 두 가지 정렬 지향적 메트릭을 제안하여 모델의 잠재 지식의 의미적 견고성을 정량화합니다. PA-CCS를 검증하기 위해, concurrent 및 antagonistic statement를 사용하여 구축된, 유해-안전 문장 쌍을 포함하는 두 개의 주요 데이터 세트와 하나의 제어 데이터 세트를 구성하고, 16개의 언어 모델에 적용합니다. PA-CCS는 잠재적인 유해 지식의 인코딩에서 아키텍처 및 레이어별 차이점을 식별합니다. 잘 정렬된 내부 표현을 가진 모델의 경우, 무의미한 마커로 부정 토큰을 대체하면 PA-CCS 점수가 저하되지만, 견고한 내부 보정을 갖추지 못한 모델은 이러한 저하를 보이지 않습니다.

시사점, 한계점

시사점:
비지도 프로빙이 정렬 평가에 잠재력이 있음을 보여줌.
해석 가능성 벤치마크에 구조적 견고성 검사를 통합할 필요성을 강조함.
PA-CCS를 통해 모델의 잠재적인 유해 지식 인코딩에서 아키텍처 및 레이어별 차이점을 식별 가능.
한계점:
해당 논문은 잠재적으로 민감하고 유해하며 공격적인 콘텐츠를 포함하고 있음.
(구체적인 한계점은 논문 내용에 명시되지 않았음)
👍