Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

Created by
  • Haebom
Category
Empty

저자

Hongyu Chen, Seraphina Goldfarb-Tarrant

개요

본 논문은 대규모 언어 모델(LLM)을 자동 평가자로 사용하여 생성된 콘텐츠의 안전성을 평가하는 신뢰성에 대한 연구이다. 11개의 다양한 LLM 평가 모델을 사용하여 자기 일관성, 인간 판단과의 일치성, 변명이나 장황한 표현과 같은 입력 인공물에 대한 민감성 세 가지 측면을 평가하였다. 연구 결과, LLM 평가자의 편향이 안전성 비교 평가의 타당성을 저해하고, 변명하는 언어 인공물만으로도 평가자의 선호도를 최대 98%까지 왜곡할 수 있음을 밝혔다. 더 큰 모델이 항상 더 강력한 것은 아니며, 작은 모델이 특정 인공물에 대해 더 높은 저항성을 보이는 경우도 있었다. 여러 모델의 결정을 집계하는 배심원 기반 평가를 통해 강력성과 인간 판단과의 일치성을 향상시킬 수 있지만, 인공물 민감성은 최고의 배심원 구성에서도 지속되었다. 따라서 신뢰할 수 있는 안전성 평가를 위해서는 다양하고 인공물에 강한 방법론이 시급하다.

시사점, 한계점

시사점:
LLM 평가자의 편향이 안전성 평가 결과를 심각하게 왜곡할 수 있음을 밝힘.
LLM의 크기가 안전성 평가의 정확성과 일관성을 보장하지 않음을 보임.
배심원 기반 평가는 강건성과 인간 판단과의 일치성을 향상시키지만, 인공물 민감성 문제는 완전히 해결하지 못함.
다양하고 인공물에 강한 안전성 평가 방법론 개발의 필요성 제기.
한계점:
연구에 사용된 LLM 모델의 종류 및 범위에 대한 제한.
인공물의 종류 및 다양성에 대한 제한.
배심원 기반 평가의 최적 구성에 대한 추가 연구 필요.
인간 판단과의 일치성 평가의 한계.
👍