본 논문은 단일 GPU(H100, bf16) 환경에서 Mixture-of-Experts(MoE) 기반의 GPT-OSS-20B 모델을 밀집 모델인 Qwen3-32B와 Yi-34B와 비교 분석한 결과를 제시합니다. 2048 토큰 컨텍스트와 64 토큰 디코딩 조건에서 GPT-OSS-20B는 Qwen3-32B와 Yi-34B보다 높은 디코딩 처리량과 토큰당 에너지 효율을 보였습니다. 특히, 최대 VRAM 사용량과 1000개 토큰 생성 당 에너지 소모량을 크게 줄였습니다. 하지만 MoE 라우팅 오버헤드로 인해 첫 토큰 생성 시간(TTFT)은 더 길었습니다. GPT-OSS-20B는 전체 파라미터의 17.3%만 활성화(3.61B / 20.9B)되었음에도 불구하고, Qwen3-32B보다 약 31.8% 높은 디코딩 처리량과 25.8% 낮은 에너지 소모량을 보였으며, 최대 VRAM 사용량도 31.7% 적었습니다. 활성화된 파라미터당 효율(APE)을 고려했을 때 GPT-OSS-20B는 훨씬 높은 효율을 보여 MoE의 배포상의 이점을 강조합니다. 본 연구는 정확도 평가는 배제하고 배포 중심의 연구에 집중하였으며, 재현과 확장을 위해 코드와 결과를 공개합니다.