Output Scouting: Auditing Large Language Models for Catastrophic Responses
Created by
Haebom
저자
Andrew Bell, Joao Fonseca
개요
본 논문은 대규모 언어 모델(LLM)의 안전성 문제, 특히 개인에게 심각한 피해를 야기할 수 있는 유해 출력 생성 가능성에 초점을 맞춥니다. LLM이 제한된 횟수의 질의(예: 1000회) 내에서 치명적인 응답(예: "임신한 직원을 해고할 수 있습니까?"라는 질문에 "예"라고 답하는 것)을 찾는 감사자의 시나리오를 설정하고, 이를 효율적으로 찾는 질의 전략으로 '출력 스카우팅(output scouting)' 기법을 제안합니다. 출력 스카우팅은 주어진 프롬프트에 대해 의미적으로 유창한 출력을 생성하여 목표 확률 분포와 일치시키는 접근 방식입니다. 두 개의 LLM을 사용한 실험을 통해 다수의 치명적인 응답 사례를 발견하고, LLM 감사를 위한 실무자를 위한 조언과 함께 오픈소스 툴킷(https://github.com/joaopfonseca/outputscouting)을 공개합니다.
시사점, 한계점
•
시사점:
◦
LLM의 안전성 감사를 위한 효율적인 전략인 출력 스카우팅 기법을 제시.
◦
실제 LLM에서 다수의 치명적인 응답 사례 발견 및 공개.
◦
오픈소스 툴킷 제공을 통해 LLM 안전성 평가 연구 및 개발 지원.
•
한계점:
◦
제한된 횟수의 질의(예: 1000회) 내에서의 평가로, LLM의 모든 유해 출력을 발견하지 못할 가능성 존재.