Sign In

EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge

Created by
  • Haebom
Category
Empty

저자

Jack FitzGerald, Aristotelis Lazaridis, Dylan Bates, Aman Sharma, Jonnathan Castillo, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Luke Kerbs, Vincent Lu, Joseph Madigan, Jeremy McLaurin, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman

개요

군사 임무에 최적화된 gpt-oss-20b의 미세 조정 버전인 EdgeRunner 20B를 제시한다. EdgeRunner 20B는 군사 문서 및 웹사이트에서 큐레이션된 160만 개의 고품질 레코드를 기반으로 훈련되었다. 4개의 새로운 테스트 세트(전투 병과, 전투 의무병, 사이버 작전, 일반 군사 지식을 위한 mil-bench-5k)를 제시하며, 해당 군사 테스트 세트에서 EdgeRunner 20B는 전투 의무병 테스트 세트의 높은 추론 설정 및 mil-bench-5k 테스트 세트의 낮은 추론 설정을 제외하고 GPT-5의 성능과 일치하거나 초과한다. gpt-oss-20b와 비교하여 ARC-C, GPQA Diamond, GSM8k, IFEval, MMLU Pro, TruthfulQA와 같은 일반적인 벤치마크에서 통계적으로 유의미한 회귀는 없었으며, GSM8k의 낮은 추론 설정에서만 예외가 있었다. 하이퍼파라미터 설정, 비용 및 처리량에 대한 분석도 제시한다.

시사점, 한계점

시사점:
소규모의 로컬 호스팅 모델이 군사 분야와 같이 데이터 보안이 중요한 작업에 이상적인 솔루션임을 보여준다.
에어 갭(air-gapped) 엣지 장치에서 배포가 가능하다.
EdgeRunner 20B는 GPT-5와 유사하거나 더 나은 군사 관련 작업 성능을 보인다.
한계점:
전투 의무병 테스트 세트의 높은 추론 설정 및 mil-bench-5k 테스트 세트의 낮은 추론 설정에서 GPT-5 성능을 따라가지 못함.
GSM8k의 낮은 추론 설정에서 gpt-oss-20b에 비해 성능 저하가 나타남.
👍