Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

Created by
  • Haebom

저자

Hongyu Chen, Seraphina Goldfarb-Tarrant

개요

본 연구는 대규모 언어 모델(LLM)을 자동 평가자로 활용하여 생성 콘텐츠의 안전성을 평가하는 신뢰성을 검증하는 연구입니다. 11개의 다양한 LLM 평가 모델을 사용하여 자기 일관성, 인간 판단과의 일치성, 변명이나 장황한 표현과 같은 입력 인공물에 대한 취약성 등 세 가지 핵심 측면을 평가했습니다. 연구 결과, LLM 평가자의 편향이 안전성 비교 평가의 타당성을 저해할 수 있음을 보여줍니다. 특히, 변명하는 언어 인공물만으로도 평가자의 선호도가 최대 98%까지 왜곡될 수 있습니다. 더 큰 모델이 항상 더 강력한 것은 아니며, 작은 모델이 특정 인공물에 대해 더 높은 저항성을 보이는 경우도 있습니다. LLM 평가자의 강건성 문제를 완화하기 위해 여러 모델의 결정을 집계하는 배심원 기반 평가를 조사했습니다. 이 방법은 강건성을 향상시키고 인간 판단과의 일치성을 높이지만, 최상의 배심원 구성에서도 인공물 민감성이 지속됩니다. 이러한 결과는 신뢰할 수 있는 안전성 평가를 위해 다양하고 인공물에 강한 방법론이 시급함을 강조합니다.

시사점, 한계점

시사점:
LLM 평가자의 편향이 안전성 평가 결과에 심각한 영향을 미칠 수 있음을 밝힘.
모델 크기와 강건성 간의 상관관계가 일관적이지 않음을 확인.
배심원 기반 평가가 강건성과 인간 판단과의 일치성을 향상시키지만, 인공물 민감성 문제는 완전히 해결하지 못함.
다양하고 인공물에 강한 안전성 평가 방법론의 필요성을 강조.
한계점:
본 연구에서 사용된 LLM 평가 모델의 종류 및 수가 제한적일 수 있음.
인공물 유형에 대한 고려가 제한적일 수 있음.
배심원 기반 평가의 최적 구성에 대한 추가 연구가 필요함.
다양하고 인공물에 강한 평가 방법론에 대한 구체적인 제안이 부족함.
👍