본 논문은 오픈소스 대규모 언어 모델(gpt-oss) 배포의 최악의 시나리오 위험을 연구합니다. 생물학 및 사이버 보안 두 영역에서 gpt-oss의 능력을 극대화하기 위해 악의적인 미세 조정(MFT) 기법을 도입하여, 생물학적 위험을 극대화하기 위해 위협 생성 관련 작업으로, 사이버 보안 위험을 극대화하기 위해 CTF 챌린지를 해결하는 에이전트 코딩 환경에서 gpt-oss를 미세 조정했습니다. 웹 브라우징이 포함된 강화 학습 환경에서 훈련을 진행했습니다. MFT 모델을 오픈 및 클로즈드-웨이트 LLM과 비교하여 위험 평가를 수행했습니다. 결과적으로, MFT gpt-oss는 생물학적 위험과 사이버 보안 위험 모두에서 Preparedness High 수준 미만인 OpenAI o3 모델에 비해 성능이 떨어졌습니다. 오픈-웨이트 모델과 비교했을 때, gpt-oss는 생물학적 능력을 약간 향상시킬 수 있지만, 상당한 발전을 이루지는 못했습니다. 이러한 결과는 모델 공개 결정에 기여했으며, MFT 접근 방식이 향후 오픈-웨이트 모델 공개로 인한 피해를 추정하는 데 유용한 지침이 될 수 있기를 기대합니다.