Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient LLM Safety Evaluation through Multi-Agent Debate

Created by
  • Haebom
Category
Empty

저자

Dachuan Lin, Guobin Shen, Zihao Yang, Tianrong Liu, Dongcheng Zhao, Yi Zeng

개요

대규모 언어 모델(LLM)의 안전성 평가에 LLM-as-a-Judge 프레임워크가 점점 더 많이 사용되지만, 고가의 최첨단 모델로 인해 확장성에 제약이 있다. 본 연구에서는 비평가, 방어자, 심판 에이전트 간의 구조화된 토론을 통해 소규모 언어 모델(SLM)을 활용하는 비용 효율적인 멀티 에이전트 심판 프레임워크를 제안한다. 안전성 판단을 엄격하게 평가하기 위해 다양한 공격 방법과 대상 모델에 걸쳐 12,000개의 적대적 상호 작용으로 구성된 대규모 인간 주석 처리된 탈옥 벤치마크인 HAJailBench를 구축했다. 이 데이터 세트는 안전성 견고성과 심판 신뢰도를 모두 평가하기 위한 세분화된 전문가 라벨링된 ground truth를 제공한다. SLM 기반 프레임워크는 HAJailBench에서 GPT-4o 심판과 필적하는 합의를 달성하면서 추론 비용을 대폭 절감한다. 제거 실험 결과 3라운드의 토론이 정확성과 효율성 사이에서 최적의 균형을 이룬다는 것을 보여준다. 이러한 연구 결과는 구조화되고 가치에 부합하는 토론을 통해 SLM이 탈옥 공격의 의미론적 미묘함을 포착할 수 있으며, HAJailBench가 확장 가능한 LLM 안전성 평가를 위한 신뢰할 수 있는 기반을 제공한다는 것을 보여준다.

시사점, 한계점

시사점:
비용 효율적인 SLM 기반 프레임워크를 통해 LLM 안전성 평가의 확장성 문제를 해결.
구조화된 토론 방식을 통해 SLM이 탈옥 공격의 미묘한 차이를 파악할 수 있음을 입증.
HAJailBench 데이터셋을 통해 안전성 평가의 신뢰성 확보.
한계점:
HAJailBench 데이터셋의 편향 가능성.
SLM의 성능은 여전히 최첨단 LLM에 미치지 못할 수 있음.
토론 과정의 최적 파라미터(라운드 수 등)에 대한 추가 연구 필요.
👍