Weekly-ai

OpenAI GPT-5, gpt-oss, Google Deepmind Genie3,

주

주상원

2025년 8월 10일8달 전

OpenAI, GPT-5 공개

ChatGPT: GPT-5가 통합 라우터로 작업별 최적 모델을 자동 선택(특히 일반 사용자 UX 개선).

API: gpt-5/mini/nano 3종 공개, Chat 전용 gpt-5-chat-latest도 제공.

일반·팀/엔터프라이즈 롤아웃과 API 동시 개시. 기업용 GPT-5 Pro(확장 추론) 예고.

향후 무료 계정도 단계적 접근 예정

모델 아키텍처/시스템 설계(개발자 관점)

초장문 컨텍스트 & 토크나이저

입력 최대 272k, 추론·출력 합쳐 128k까지(총 40만 토큰 처리).

롱컨텍스트 전용 벤치에서 o3·4.1 대비 우위.

ii.

추론 제어 & 응답 스타일

reasoning_effort = minimal/low/medium/high로 생각 시간-지연 트레이드오프 제어,

verbosity로 출력 길이 제어.

iii.

툴콜/에이전트 강화

plaintext 커스텀 툴(정규식/CFG로 포맷 강제),

가시적 프리앰블로 진행상태 설명,

병렬 툴콜·에러 복구 개선.

성능(벤치마크 & 내부 시연)

코딩

SWE-bench Verified 74.9%, Aider polyglot 88%. 프론트엔드 생성에서 o3 대비 70% 선호(내부 테스트).

ii.

에이전틱 태스크

최신 툴사용 벤치 τ²-bench telecom 96.7%(두 달 전 공개된 난도 높은 시나리오).

롱컨텍스트 검색형 QA에서도 고정확도.

iii.

사실성/헬스케어

LongFact/FactScore류에서 사실 오류 ~80% 감소(o3 대비) 및 헬스 관련 응답 정확성 개선

iv.

멀티모달

이미지/비디오 벤치(MMMU·VideoMMMU 등)에서 o3·4.1 대비 상승

MMMU (이미지·도형·차트 등 대학수준 복합 이해)

GPT-5: 84.2% / OpenAI o3: 82.9% / GPT-4o 72.2%

제품 경험(UX) & 기술적 의의

‘통합 모델’로의 전환

o-series(추론) + GPT 시리즈(고속) + 라우터를 단일 UX로 융합 → 사용자가 모델 선택을 고민하지 않게 함. -> 모델 라우팅도 모델이 하는 상황

실무형 에이전트의 현실화

장기 태스크에서 계획→툴연쇄→오류복구→리캡 사이클이 안정화. 상용 에이전트 제품군 적용 용이.

개발 생산성

JSON 탈피한 툴콜·프리앰블·프롬프트 제어 파라미터 도입은 운영 복잡도/실패율을 낮추는 실질 이득.

가격·접근성·배포

API 단가

gpt-5 $1.25/M(in) / $10/M(out), mini $0.25/$2, nano $0.05/$0.40. gpt-5-chat-latest 동일 가격.

ii.

엔터프라이즈 채널

Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry에 즉시 탑재·프리뷰 개방.

Prompt Guide
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

GPT-5 prompting guide | OpenAI Cookbook

GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steera...

cookbook.openai.com

OpenAI의 오픈웨이트 모델 ‘gpt-oss’(120b/20b) 발표

출시모델: gpt-oss-120b, gpt-oss-20b (텍스트 전용).

라이선스: Apache-2.0(상업 이용·재배포 허용).

ii.

배포 채널: OpenAI 공식 블로그/모델카드, GitHub, Hugging Face.

성능 포지셔닝(공식 메시지 기준)

120b: “o4-mini와 핵심 추론 벤치에서 근접한 동급 성능 + 단일 80GB GPU 효율 운영.”

ii.

20b: “o3-mini와 유사한 결과” + 온디바이스/로컬 활용성 강조.

iii.

맥락 길이: 128K 컨텍스트

아키텍처·하드웨어 요구

파라미터: 120b(총 117B, 활성 5.1B), 20b(총 21B, 활성 3.6B). MoE 스타일 활성 파라미터 표기.

ii.

리소스: 120b 단일 80GB GPU(H100/MI300X) 운용 가이드, 20b ~16GB VRAM 환경 호환.

유통·배포(클라우드 & 레지스트리)

Hugging Face: 모델 카드/가중치 다운로드 제공.

ii.

AWS: Amazon Bedrock & SageMaker JumpStart에서 gpt-oss 120b/20b 사용 가능

iii.

온프렘/로컬: 가중치 직접 호스팅·파인튜닝 경로 명시.

개발자 경험(툴·추론 제어)

툴사용: 웹브라우징·함수호출 등 툴콜 시나리오 대응

ii.

추론 강도 조절: low/medium/high 등 reasoning level 노출

iii.

배포 편의: SageMaker 예제·가이드로 신속 PoC 경로 제공.

시장/생태계 반응(핵심 논점)

전략 전환: GPT-2 이후 첫 오픈웨이트—폐쇄형 일변도에서 혼합 전략으로 회귀.

ii.

경쟁 구도: Meta(Llama), DeepSeek 등 개방 진영과 동일 링에 본격 합류.

iii.

클라우드 파트너십: AWS 채널 탑재로 기업 도입 마찰 감소.

VC/운영 관점 임팩트

엔터프라이즈 규제 도메인—데이터 경계 내 배포

ii.

에이전트·RPA 스택—추론/툴콜 성능↑,

iii.

엣지/온디바이스—20b로 PoC→제품 이전이 쉬움.

iv.

압박: 순수 API 래퍼형 SaaS는 가격·차별화 압력↑(오픈웨이트 대체 가능성).

Google Deepmind, Genie3 발표

“범용 월드 모델” Genie 3 공개—프롬프트로 생성된 세계를 실시간으로 탐색·조작 가능.

8월 5일(PT) DeepMind 공식 블로그 발표.

ii.

접근성: 리서치 프리뷰로 학계·크리에이터 소수에게만 조기 제공(일반 공개 전).

https://youtu.be/PDKhUknuQDg?si=ilPXEbBqufz28bZf

핵심 기능·스펙

렌더링/프레임: 720p, 24FPS 실시간 상호작용.

ii.

지속성(메모리): 수 분간 세계의 상태·변경 사항이 유지(오브젝트 퍼시스턴스).

iii.

동적 이벤트: 사용자 입력으로 오브젝트 조작/환경(날씨 등) 변경 가능.

iv.

입력 포맷: 텍스트(또는 이미지)에서 즉시 탐색 가능한 3D 공간 생성.

Genie 2·기존 영상 생성과의 차이

Genie 2/Veo 류: 짧은 클립 중심(비인터랙티브 또는 제한적)이었음.

ii.

Genie 3: 상호작용+분 단위 지속성으로 게임/VR/시뮬레이션 활용도를 크게 확장.

기술적 의의(월드 모델 → 에이전트/AGI 토대)

월드 모델의 성숙: 시각 장면 생성에 그치지 않고 상태 전이·물체 지속성·사용자 행위 반영을 통합

ii.

에이전트 학습용 환경으로 바로 쓰일 수준에 근접.

iii.

AGI 로드맵 신호: DeepMind는 Genie 3을 AGI 개발의 핵심 토대(‘세계 이해·예측·행동’)로 포지셔닝.

초기 활용 시나리오(실무 포인트)

게임/크리에이티브: 레벨 프로토타입/프리비즈를 즉시 생성→제작 리드타임 대폭 단축.

ii.

로보틱스·RL: 합성 시뮬레이션 데이터로 에이전트 학습(경로 계획·물체 조작 등) 가능성.

iii.

교육/트레이닝: 몰입형 실습·상황 시뮬레이션(안전·응급·산업) 제작.

시장 반응·포지셔닝

미디어 톤: 실시간 상호작용이 차별점—분 단위 지속성·오브젝트 기억으로 현실감 강화.

ii.

제품 단계: 일반 공개 전 연구 도구. 대규모 상용화 전 컴퓨트/비용 변수 관찰 필요.

한계·리스크(현재)

세션 길이: 상호작용 수 분 수준—장시간 시뮬레이션엔 추가 연구 필요.

ii.

물리/지오메트리: 현실 물리·지형을 완벽히 재현하진 못함(데모 기준).

iii.

접근성/비용: 공개 전·연산비 고가 추정—광범위 배포까지 시간/인프라 필요.

투자·사업적 함의(요약 인사이트)

수혜 섹터:

게임·툴체인(레벨·월드 자동화)

시뮬레이션/RL 플랫폼

VR/교육 콘텐츠 스튜디오—프로토타이핑→합성데이터→실사용 흐름 강화.

AI 대표 서비스리스트

'weekly-ai' 구독하기

사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 'weekly-ai'을 구독하세요!