Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models

Created by
  • Haebom

저자

Boyi Wei, Zora Che, Nathaniel Li, Udari Madhushani Sehwag, Jasper Gotting, Samira Nedungadi, Julian Michael, Summer Yue, Dan Hendrycks, Peter Henderson, Zifan Wang, Seth Donoughe, Mantas Mazeika

개요

본 논문은 오픈 웨이트 바이오-파운데이션 모델의 이중 사용 딜레마를 다루며, 악의적인 목적으로 사용될 수 있는 잠재적 위험성을 평가하기 위한 프레임워크 \eval를 제안합니다. \eval는 시퀀스 모델링, 돌연변이 효과 예측, 독성 예측의 세 가지 측면을 통해 모델의 바이러스 이해 능력을 평가합니다. 연구 결과에 따르면, 현재의 데이터 필터링 방식은 악의적인 사용자에 의해 쉽게 우회될 수 있으며, 모델 사전 학습 표현에 이미 이중 사용 관련 신호가 존재할 수 있음을 보여줍니다.

시사점, 한계점

현재의 데이터 필터링 방식은 모델을 악의적으로 사용하는 행위에 대해 충분한 방어력을 제공하지 못할 수 있음.
제외된 지식도 미세 조정을 통해 쉽게 복구될 수 있으며, 시퀀스 모델링에서 광범위한 일반화 능력을 보임.
이중 사용 관련 신호가 사전 학습된 표현에 이미 존재할 수 있음.
단독으로 데이터 필터링만으로는 안전성을 확보하기 어려우며, 추가적인 안전 및 보안 전략 연구가 필요함.
👍