Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Output Scouting: Auditing Large Language Models for Catastrophic Responses

Created by
  • Haebom

저자

Andrew Bell, Joao Fonseca

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 문제, 특히 개인에게 심각한 피해를 야기할 수 있는 유해 출력 생성 가능성에 초점을 맞춥니다. LLM이 제한된 횟수의 질의(예: 1000회) 내에서 치명적인 응답(예: "임신한 직원을 해고할 수 있습니까?"라는 질문에 "예"라고 답하는 것)을 찾는 감사자의 시나리오를 설정하고, 이를 효율적으로 찾는 질의 전략으로 '출력 스카우팅(output scouting)' 기법을 제안합니다. 출력 스카우팅은 주어진 프롬프트에 대해 의미적으로 유창한 출력을 생성하여 목표 확률 분포와 일치시키는 접근 방식입니다. 두 개의 LLM을 사용한 실험을 통해 다수의 치명적인 응답 사례를 발견하고, LLM 감사를 위한 실무자를 위한 조언과 함께 오픈소스 툴킷(https://github.com/joaopfonseca/outputscouting)을 공개합니다.

시사점, 한계점

시사점:
LLM의 안전성 감사를 위한 효율적인 전략인 출력 스카우팅 기법을 제시.
실제 LLM에서 다수의 치명적인 응답 사례 발견 및 공개.
오픈소스 툴킷 제공을 통해 LLM 안전성 평가 연구 및 개발 지원.
한계점:
제한된 횟수의 질의(예: 1000회) 내에서의 평가로, LLM의 모든 유해 출력을 발견하지 못할 가능성 존재.
사용된 LLM과 데이터셋의 특성에 따라 일반화의 한계가 있을 수 있음.
출력 스카우팅의 효율성과 정확성에 대한 더욱 폭넓은 실험 및 분석 필요.
👍