로그인
Weekly-ai

OpenAI GPT-5, gpt-oss, Google Deepmind Genie3,

주상원
1.
OpenAI, GPT-5 공개
a.
ChatGPT: GPT-5가 통합 라우터로 작업별 최적 모델을 자동 선택(특히 일반 사용자 UX 개선).
b.
API: gpt-5/mini/nano 3종 공개, Chat 전용 gpt-5-chat-latest도 제공.
i.
일반·팀/엔터프라이즈 롤아웃과 API 동시 개시. 기업용 GPT-5 Pro(확장 추론) 예고.
c.
향후 무료 계정도 단계적 접근 예정
d.
모델 아키텍처/시스템 설계(개발자 관점)
i.
초장문 컨텍스트 & 토크나이저
1.
입력 최대 272k, 추론·출력 합쳐 128k까지(총 40만 토큰 처리).
2.
롱컨텍스트 전용 벤치에서 o3·4.1 대비 우위.
ii.
추론 제어 & 응답 스타일
1.
reasoning_effort = minimal/low/medium/high로 생각 시간-지연 트레이드오프 제어,
2.
verbosity로 출력 길이 제어.
iii.
툴콜/에이전트 강화
1.
plaintext 커스텀 툴(정규식/CFG로 포맷 강제),
2.
가시적 프리앰블로 진행상태 설명,
3.
병렬 툴콜·에러 복구 개선.
e.
성능(벤치마크 & 내부 시연)
i.
코딩
1.
SWE-bench Verified 74.9%, Aider polyglot 88%. 프론트엔드 생성에서 o3 대비 70% 선호(내부 테스트).
ii.
에이전틱 태스크
1.
최신 툴사용 벤치 τ²-bench telecom 96.7%(두 달 전 공개된 난도 높은 시나리오).
2.
롱컨텍스트 검색형 QA에서도 고정확도.
iii.
사실성/헬스케어
1.
LongFact/FactScore류에서 사실 오류 ~80% 감소(o3 대비) 및 헬스 관련 응답 정확성 개선
iv.
멀티모달
1.
이미지/비디오 벤치(MMMU·VideoMMMU 등)에서 o3·4.1 대비 상승
a.
MMMU (이미지·도형·차트 등 대학수준 복합 이해)
i.
GPT-5: 84.2% / OpenAI o3: 82.9% / GPT-4o 72.2%
v.
제품 경험(UX) & 기술적 의의
1.
‘통합 모델’로의 전환
a.
o-series(추론) + GPT 시리즈(고속) + 라우터를 단일 UX로 융합 → 사용자가 모델 선택을 고민하지 않게 함. -> 모델 라우팅도 모델이 하는 상황
2.
실무형 에이전트의 현실화
a.
장기 태스크에서 계획→툴연쇄→오류복구→리캡 사이클이 안정화. 상용 에이전트 제품군 적용 용이.
3.
개발 생산성
a.
JSON 탈피한 툴콜·프리앰블·프롬프트 제어 파라미터 도입은 운영 복잡도/실패율을 낮추는 실질 이득.
f.
가격·접근성·배포
i.
API 단가
1.
gpt-5 $1.25/M(in) / $10/M(out), mini $0.25/$2, nano $0.05/$0.40. gpt-5-chat-latest 동일 가격.
ii.
엔터프라이즈 채널
1.
Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry에 즉시 탑재·프리뷰 개방.
2.
OpenAI의 오픈웨이트 모델 ‘gpt-oss’(120b/20b) 발표
a.
출시모델: gpt-oss-120b, gpt-oss-20b (텍스트 전용).
i.
라이선스: Apache-2.0(상업 이용·재배포 허용).
ii.
배포 채널: OpenAI 공식 블로그/모델카드, GitHub, Hugging Face.
b.
성능 포지셔닝(공식 메시지 기준)
i.
120b: “o4-mini와 핵심 추론 벤치에서 근접한 동급 성능 + 단일 80GB GPU 효율 운영.”
ii.
20b: “o3-mini와 유사한 결과” + 온디바이스/로컬 활용성 강조.
iii.
맥락 길이: 128K 컨텍스트
c.
아키텍처·하드웨어 요구
i.
파라미터: 120b(총 117B, 활성 5.1B), 20b(총 21B, 활성 3.6B). MoE 스타일 활성 파라미터 표기.
ii.
리소스: 120b 단일 80GB GPU(H100/MI300X) 운용 가이드, 20b ~16GB VRAM 환경 호환.
d.
유통·배포(클라우드 & 레지스트리)
i.
Hugging Face: 모델 카드/가중치 다운로드 제공.
ii.
AWS: Amazon Bedrock & SageMaker JumpStart에서 gpt-oss 120b/20b 사용 가능
iii.
온프렘/로컬: 가중치 직접 호스팅·파인튜닝 경로 명시.
e.
개발자 경험(툴·추론 제어)
i.
툴사용: 웹브라우징·함수호출 등 툴콜 시나리오 대응
ii.
추론 강도 조절: low/medium/high 등 reasoning level 노출
iii.
배포 편의: SageMaker 예제·가이드로 신속 PoC 경로 제공.
f.
시장/생태계 반응(핵심 논점)
i.
전략 전환: GPT-2 이후 첫 오픈웨이트—폐쇄형 일변도에서 혼합 전략으로 회귀.
ii.
경쟁 구도: Meta(Llama), DeepSeek 등 개방 진영과 동일 링에 본격 합류.
iii.
클라우드 파트너십: AWS 채널 탑재로 기업 도입 마찰 감소.
g.
VC/운영 관점 임팩트
i.
엔터프라이즈 규제 도메인—데이터 경계 내 배포
ii.
에이전트·RPA 스택—추론/툴콜 성능↑,
iii.
엣지/온디바이스—20b로 PoC→제품 이전이 쉬움.
iv.
압박: 순수 API 래퍼형 SaaS는 가격·차별화 압력↑(오픈웨이트 대체 가능성).

3.
Google Deepmind, Genie3 발표
a.
“범용 월드 모델” Genie 3 공개—프롬프트로 생성된 세계를 실시간으로 탐색·조작 가능.
i.
8월 5일(PT) DeepMind 공식 블로그 발표.
ii.
접근성: 리서치 프리뷰로 학계·크리에이터 소수에게만 조기 제공(일반 공개 전).
b.
핵심 기능·스펙
i.
렌더링/프레임: 720p, 24FPS 실시간 상호작용.
ii.
지속성(메모리): 수 분간 세계의 상태·변경 사항이 유지(오브젝트 퍼시스턴스).
iii.
동적 이벤트: 사용자 입력으로 오브젝트 조작/환경(날씨 등) 변경 가능.
iv.
입력 포맷: 텍스트(또는 이미지)에서 즉시 탐색 가능한 3D 공간 생성.
c.
Genie 2·기존 영상 생성과의 차이
i.
Genie 2/Veo 류: 짧은 클립 중심(비인터랙티브 또는 제한적)이었음.
ii.
Genie 3: 상호작용+분 단위 지속성으로 게임/VR/시뮬레이션 활용도를 크게 확장.
d.
기술적 의의(월드 모델 → 에이전트/AGI 토대)
i.
월드 모델의 성숙: 시각 장면 생성에 그치지 않고 상태 전이·물체 지속성·사용자 행위 반영을 통합
ii.
에이전트 학습용 환경으로 바로 쓰일 수준에 근접.
iii.
AGI 로드맵 신호: DeepMind는 Genie 3을 AGI 개발의 핵심 토대(‘세계 이해·예측·행동’)로 포지셔닝.
e.
초기 활용 시나리오(실무 포인트)
i.
게임/크리에이티브: 레벨 프로토타입/프리비즈를 즉시 생성→제작 리드타임 대폭 단축.
ii.
로보틱스·RL: 합성 시뮬레이션 데이터로 에이전트 학습(경로 계획·물체 조작 등) 가능성.
iii.
교육/트레이닝: 몰입형 실습·상황 시뮬레이션(안전·응급·산업) 제작.
f.
시장 반응·포지셔닝
i.
미디어 톤: 실시간 상호작용이 차별점—분 단위 지속성·오브젝트 기억으로 현실감 강화.
ii.
제품 단계: 일반 공개 전 연구 도구. 대규모 상용화 전 컴퓨트/비용 변수 관찰 필요.
g.
한계·리스크(현재)
i.
세션 길이: 상호작용 수 분 수준—장시간 시뮬레이션엔 추가 연구 필요.
ii.
물리/지오메트리: 현실 물리·지형을 완벽히 재현하진 못함(데모 기준).
iii.
접근성/비용: 공개 전·연산비 고가 추정—광범위 배포까지 시간/인프라 필요.
h.
투자·사업적 함의(요약 인사이트)
i.
수혜 섹터:
1.
게임·툴체인(레벨·월드 자동화)
2.
시뮬레이션/RL 플랫폼
3.
VR/교육 콘텐츠 스튜디오—프로토타이핑→합성데이터→실사용 흐름 강화.

4.
AI 대표 서비스리스트
We
'weekly-ai' 구독하기
사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 'weekly-ai'을 구독하세요!
구독
👍