Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Estimating Worst-Case Frontier Risks of Open-Weight LLMs

Created by
  • Haebom

저자

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

개요

본 논문은 오픈소스 대규모 언어 모델(gpt-oss) 배포의 최악의 시나리오 위험을 연구합니다. 생물학 및 사이버 보안 두 영역에서 gpt-oss의 능력을 극대화하기 위해 악의적인 미세 조정(MFT) 기법을 도입하여, 생물학적 위험을 극대화하기 위해 위협 생성 관련 작업으로, 사이버 보안 위험을 극대화하기 위해 CTF 챌린지를 해결하는 에이전트 코딩 환경에서 gpt-oss를 미세 조정했습니다. 웹 브라우징이 포함된 강화 학습 환경에서 훈련을 진행했습니다. MFT 모델을 오픈 및 클로즈드-웨이트 LLM과 비교하여 위험 평가를 수행했습니다. 결과적으로, MFT gpt-oss는 생물학적 위험과 사이버 보안 위험 모두에서 Preparedness High 수준 미만인 OpenAI o3 모델에 비해 성능이 떨어졌습니다. 오픈-웨이트 모델과 비교했을 때, gpt-oss는 생물학적 능력을 약간 향상시킬 수 있지만, 상당한 발전을 이루지는 못했습니다. 이러한 결과는 모델 공개 결정에 기여했으며, MFT 접근 방식이 향후 오픈-웨이트 모델 공개로 인한 피해를 추정하는 데 유용한 지침이 될 수 있기를 기대합니다.

시사점, 한계점

시사점: 악의적인 미세 조정(MFT) 기법을 활용하여 오픈소스 LLM의 잠재적 위험을 평가하는 새로운 방법론을 제시했습니다. MFT를 통해 실제 위험 수준을 보다 정확하게 예측할 수 있는 가능성을 보여주었습니다. 본 연구의 결과는 오픈소스 모델 배포에 대한 결정을 지원하는 데 유용한 정보를 제공합니다.
한계점: MFT는 모든 가능한 악용 시나리오를 포괄하지 못할 수 있습니다. 평가에 사용된 모델의 범위가 제한적일 수 있습니다. 생물학적 및 사이버 보안 위험 평가의 객관성을 더욱 높일 필요가 있습니다. MFT를 통해 얻은 결과가 실제 세계 위험을 완벽하게 반영한다고 단정 지을 수 없습니다.
👍