Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Discovering Forbidden Topics in Language Models

Created by
  • Haebom

저자

Can Rager, Chris Wendler, Rohit Gandikota, David Bau

개요

본 논문은 언어 모델이 거부하는 주제의 전체 집합을 식별하는 "거부 발견(refusal discovery)"이라는 새로운 문제 설정을 제시합니다. 토큰 사전 채우기를 사용하여 금지된 주제를 찾는 거부 발견 방법인 LLM-크롤러를 개발하고, 공개 안전 조정 데이터를 가진 오픈소스 모델인 Tulu-3-8B에서 LLM-크롤러를 벤치마킹합니다. 1000개의 프롬프트 예산 내에서 36개 주제 중 31개를 검색하는 데 성공하고, Claude-Haiku의 사전 채우기 옵션을 사용하여 최첨단 모델로 크롤링을 확장합니다. 마지막으로 Llama-3.3-70B와 추론을 위해 미세 조정된 두 가지 변형 모델인 DeepSeek-R1-70B 및 Perplexity-R1-1776-70B 등 세 가지 널리 사용되는 오픈 가중치 모델을 크롤링합니다. DeepSeek-R1-70B는 검열 조정과 일치하는 패턴(CCP 정렬 응답 암기로 나타나는 "사고 억압" 행동)을 보여줍니다. Perplexity-R1-1776-70B는 검열에 강하지만, LLM-크롤러는 양자화된 모델에서 CCP 정렬 거부 답변을 유도합니다. 이러한 결과는 AI 시스템의 편향, 경계 및 정렬 실패를 감지하기 위한 거부 발견 방법의 중요성을 강조합니다.

시사점, 한계점

시사점:
언어 모델의 거부 주제를 효과적으로 식별하는 새로운 방법인 LLM-크롤러를 제시.
다양한 언어 모델에서 검열 및 편향을 탐지하는 LLM-크롤러의 효용성을 실증.
LLM의 사고 억압 및 CCP 정렬 응답과 같은 잠재적인 편향 및 검열 문제를 드러냄.
AI 시스템의 안전성 및 신뢰성 평가를 위한 거부 발견 방법의 중요성을 강조.
한계점:
LLM-크롤러의 성능은 사용된 프롬프트 및 모델에 따라 달라질 수 있음.
특정 주제에 대한 거부는 모델의 설계 및 훈련 데이터에 따라 다르게 나타날 수 있음.
더욱 다양하고 대규모의 모델에 대한 테스트가 필요.
거부 발견의 정확성과 범위에 대한 추가 연구가 필요.
👍