Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge

Created by
  • Haebom
Category
Empty

저자

Jack FitzGerald, Aristotelis Lazaridis, Dylan Bates, Aman Sharma, Jonnathan Castillo, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Luke Kerbs, Vincent Lu, Joseph Madigan, Jeremy McLaurin, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman

개요

본 논문은 군사적 과제에 최적화된 gpt-oss-20b의 미세 조정 버전인 EdgeRunner 20B를 제시합니다. EdgeRunner 20B는 군사 문서 및 웹사이트에서 수집한 160만 개의 고품질 레코드를 기반으로 훈련되었습니다. 또한 (a) 전투 병과, (b) 군의관, (c) 사이버 작전, (d) mil-bench-5k (일반 군사 지식)의 네 가지 새로운 테스트 세트를 소개합니다. EdgeRunner 20B는 군사 테스트 세트에서 GPT-5의 성능과 일치하거나 능가하며, 전투 의무병 테스트 세트의 높은 추론 설정과 mil-bench-5k 테스트 세트의 낮은 추론 설정을 제외하고 95% 이상의 통계적 유의성을 보입니다. gpt-oss-20b에 비해 ARC-C, GPQA Diamond, GSM8k, IFEval, MMLU Pro 또는 TruthfulQA와 같은 일반적인 벤치마크에서는 낮은 추론 설정의 GSM8k를 제외하고 통계적으로 유의미한 회귀가 없습니다. 하이퍼파라미터 설정, 비용 및 처리량에 대한 분석도 제시합니다. 이러한 결과는 소규모의 로컬 호스팅 모델이 군사 분야와 같이 데이터에 민감한 작전에 이상적인 솔루션임을 보여주며, 에어갭 엣지 장치에서의 배포를 가능하게 합니다.

시사점, 한계점

시사점:
EdgeRunner 20B는 군사적 과제에서 GPT-5와 유사하거나 더 나은 성능을 보입니다.
소규모의 로컬 호스팅 모델은 데이터 보안을 유지하며 군사 작전에 적합합니다.
에어갭 엣지 장치에 배포가 가능합니다.
한계점:
군의관 테스트 세트의 높은 추론 설정 및 mil-bench-5k 테스트 세트의 낮은 추론 설정에서 성능 저하가 있습니다.
GSM8k의 낮은 추론 설정에서 gpt-oss-20b보다 성능이 떨어집니다.
👍