Sign In

Weekly-ai

한주간의 AI 소식을 전달합니다.
[250825] MIT NANDA, Aibaba QWEN-Image-edit, Google Pixel 10, Dynamics Lab Mirage, MS Excel copilot
MIT NANDA 요약 (Executive Summary) 2025년 현재 전 세계 기업들은 생성형 AI(GenAI)에 3~4조 원 규모의 투자를 진행했으나, 95%의 기업은 수익을 내지 못하고 있음. 극히 일부(5%)의 기업만이 AI 파일럿을 통해 수백만 달러 이상의 가치를 창출. 원인: 모델 품질이나 규제가 아니라, “학습 능력(learning capability)” 부족. ChatGPT, Copilot 같은 범용 도구는 빠르게 확산됐지만, P&L(손익)에 직접적 영향은 거의 없음. 기업용 맞춤형 AI는 60%가 평가했지만 5%만 실제 운영까지 도달. 실패 이유는 맥락 학습 부족, 워크플로우 부적합, 지속적 개선 불가. GenAI Divide: 채택은 활발, 변혁은 미미 9개 주요 산업 중 실질적 구조적 변화는 기술(Tech), 미디어(Media) 두 분야에만 뚜렷하게 나타남. 나머지 산업(의료, 금융, 소비재, 제조, 에너지 등)은 투자 대비 변화 거의 없음. 대기업일수록 파일럿은 많으나 확산율은 낮음, 반대로 중견기업은 더 빠르게 전환 성공. 왜 파일럿이 멈추는가? (Learning Gap) 5%만이 생산 단계 진입 → 나머지는 기억·학습·적응 불가능으로 중단. 개인 차원에서는 이미 “섀도우 AI(shadow AI)” 사용 활발: 90% 직원이 ChatGPT, Claude 같은 개인 계정을 사용. 하지만 기업 공식 LLM 구독은 40%에 불과. 투자 편향: 기업들은 매출·마케팅 부문(70%)에 집중, 반면 백오피스 자동화가 ROI는 더 크지만 소외됨. 사용자가 원하는 것
  • 주상원
[250818] OpenAI 국제정보올림피아드 금메달, Genspark 회의록 애플워치앱, Google nano-banana, OpenAI Prompt Optimizer, Google Gemma3 270M
OpenAI의 AI 추론 시스템 – 국제정보올림피아드 금메달 대회 및 성과 요약 OpenAI의 추론 시스템이 2025년 국제정보올림피아드(IOI) 온라인 AI 부문에서 금메달 수준(gold medal-level) 성과를 올렸음 이틀에 걸쳐 하루 5시간 동안 3문제씩 알고리즘이나 그래프이론과 같은 컴퓨터 프로그래밍 문제를 풀도록 진행 전체 330명의 인간 참가자 중 6위, AI 참가자는 최고 성적(AI 중 1위)을 기록 2024년 대비 성적이 기하급수적으로 향상했으며, 49%(브론즈 미달)에서 98%로 도약했습니다. 모델 전략 및 사용 방식 특별히 IOI용으로 튜닝된 모델이 아닌, 일반 목적의 추론 모델 앙상블(general-purpose reasoning model ensemble)을 사용. 인간과 동일한 규칙(5시간 시간 제한, 최대 50회 제출 등)을 준수 Genspark, 애플워치용 회의록 생성 AI 공개 Genspark는 세계 최초로, Apple Watch에서 바로 사용할 수 있는 AI 회의록 생성 도구인 "Genspark AI Meeting Notes"를 공개 주요 특징: Apple Watch에서 더블 탭 한 번으로 회의 녹음을 시작하고, 백그라운드에서 자동으로 계속 녹음됩니다. Google 또는 Outlook 캘린더와 연동되어 회의에 맞추어 자동으로 녹음을 시작 기능 종료 후, AI가 회의 전체를 분석하여 요약 / 핵심 토의 사항 / 액션 아이템을 자동으로 생성해 참가자에게 전달 iOS와 Android용 앱에도 동일 기능을 제공하며, watchOS 11.1 이상이 필요 https://youtu.be/3l5w4MPcT1s?si=ZUHiYXi5aVuAQ5YD Google(추정) 신규이미지모델 nano‑banana 개요 이 모델은 LMArena의 Image Edit Arena에 조용히 등장했으며, 초기에는 공식 발표 없이 커뮤니티 내부에서만 공유.
  • 주상원
OpenAI GPT-5, gpt-oss, Google Deepmind Genie3,
OpenAI, GPT-5 공개 ChatGPT: GPT-5가 통합 라우터로 작업별 최적 모델을 자동 선택(특히 일반 사용자 UX 개선). API: gpt-5/mini/nano 3종 공개, Chat 전용 gpt-5-chat-latest도 제공. 일반·팀/엔터프라이즈 롤아웃과 API 동시 개시. 기업용 GPT-5 Pro(확장 추론) 예고. 향후 무료 계정도 단계적 접근 예정 모델 아키텍처/시스템 설계(개발자 관점) 초장문 컨텍스트 & 토크나이저 입력 최대 272k, 추론·출력 합쳐 128k까지(총 40만 토큰 처리). 롱컨텍스트 전용 벤치에서 o3·4.1 대비 우위. 추론 제어 & 응답 스타일 reasoning_effort = minimal/low/medium/high로 생각 시간-지연 트레이드오프 제어, verbosity로 출력 길이 제어. 툴콜/에이전트 강화 plaintext 커스텀 툴(정규식/CFG로 포맷 강제), 가시적 프리앰블로 진행상태 설명, 병렬 툴콜·에러 복구 개선. 성능(벤치마크 & 내부 시연) 코딩 SWE-bench Verified 74.9%, Aider polyglot 88%. 프론트엔드 생성에서 o3 대비 70% 선호(내부 테스트). 에이전틱 태스크 최신 툴사용 벤치 τ²-bench telecom 96.7%(두 달 전 공개된 난도 높은 시나리오).
  • 주상원
[250728]Google Deepmind Gemini Deep Think, Gemini 2.5, Runway Aleph, Higgsfield steal1, Memories.ai LVMM, Google Labs – Opal
Google DeepMind – Gemini Deep Think, IMO 금메달 달성 금메달 기준 35 점 획득 IMO 2025 문제 6개 중 5개 완전 해결, 총 35/42점 기록 IMO 위원장 Gregor Dolinar가 결과 검증 · 인증 벤치마크 이상의 ‘실전’ 증명 일반 수학 데이터세트가 아닌, 공개 직후 문제 해결로 데이터 누수 논란 차단 Olympic-level reasoning → 금융·과학 시뮬레이션 등 고부가 vertical로 확장 기대 Deep Think 스택 Tool former+Tree-of-Thoughts hybrid 파이프라인, 자가 오류 분석 루프 3단계 적용 prompt engineering 중요성 재부각 → 솔루션/컨설팅 시장 기회 경쟁 지형도 同기간 OpenAI 모델도 금메달권 성능 공표, 인재 유치전 가속화 Meta는 구글 출신 연구자 3인 전격 영입 → 폐쇄 모델 경쟁 심화 Google Gemini 2.5 – 대화형 이미지 분할 픽셀 단위 ‘자연어 분할’ “가장 시든 꽃만 찾아”, “청소 필요한 곳” 등 추상 지시도 인식 다국어 입력·텍스트 OCR 함께 처리 멀티모달 스택 업데이트 Vision-Transformer + Text Fusion으로 open-vocabulary 세그멘테이션 구현 이미지-to-SVG 변환 성능도 1.5 → 2.5에서 대폭 개선
  • 주상원
[20250721] OpenAI ChatGPT Agent, Anthropic Claude Connector Directory, MoonshotAI Kimi K2
OpenAI, ChatGPT Agent 정식 출시 출시 배경 & 아키텍처 7 월 17 일 발표된 ‘ChatGPT Agent’는 기존 Operator(웹 RPA)·Deep Research(장문 분석)를 GPT-4o 기반 단일 엔진으로 합친 통합 에이전트 스택. 모든 작업은 가상 macOS 데스크톱(시각 브라우저·텍스트 브라우저·터미널·API 호출기)에서 실행되며, 세션·쿠키·파일을 자체 컨텍스트에 보존해 멀티도구 간 상태를 유지함 에이전트 모드 UI · 워크플로우 채팅창 Tool 드롭다운에서 Agent mode 전환 → 프롬프트 입력 → 화면 우측에 실시간 내비게이터가 클릭·타이핑·스크롤 과정을 스트리밍. 사용자는 언제든 Take over browser 버튼으로 수동 전환·중단·재지시 가능; 완료 시 모바일 알림 또는 요약 리포트 전달. 멀티스텝 업무 자동화 사례 (업무) 경쟁사 3곳 분석 → 터미널로 파이썬 스크립트 실행 → 슬라이드 deck 생성: 내부 벤치마크 SpreadsheetBench에서 Excel Copilot 대비 2.3 배 정확도 기록. (개인) “다음 주 금요일 6 시 2인 코스 $100 이하 레스토랑 예약 + 새 바지·셔츠 주문 + 배우자 선물 $200 이하 구매” 같은 장문 요청도 한 번에 처리하며, 결제 직전 승인 대기 상태로 멈춘다(현장 테스트). (지속) Tasks 기능과 연결하면 “매일 오후 3 시 최신 AI 뉴스 요약” 같은 예약형 작업을 주·월 단위로 반복 실행. 외부 앱·API 연결(Connectors & Tasks) OAuth 기반 Connectors: Gmail, Google Drive, GitHub, SharePoint, Dropbox, HubSpot, Linear 등 12 종(7 월 기준). Agent가 리포지토리·메일·문서 검색 후 인용·분석. Auth0·WorkOS 등 SSO 브로커 예제(오픈소스)로 자체 SaaS도 쉽게 붙일 수 있어, 맞춤 업무 파이프라인 구축 비용↓. 안전·거버넌스 프레임워크 고위험 행위(결제·이메일 발송·SSH 접속 등) 전 Explicit User Confirmation 필수, 일부 작업은 Watch Mode로 실시간 감독 요구. 웹 Prompt Injection 대비 전용 탐지 모델·도메인 블록리스트, 생화학 듀얼유스 정보는 Refusal Training으로 사전 차단. Bio-Chem 분야는 OpenAI ‘High Capability’ 레벨로 규제 적용. 과금·출시 범위 & 로드맵 Plus·Pro·Team 사용자는 즉시 사용(Plus/Team 월 40 msg, Pro 월 400 msg 포함), Enterprise·Edu는 8 월 내 배포 예정. 초과 시 크레딧팩(1 k message ≈ $5) 구매. 기존 Operator 웹앱은 3 주 후 서비스 종료, Agent로 완전 통합. 올 하반기에는 “자동 승인 레벨” 조정, 다중 에이전트 병렬 실행, 온프레미스 브라우저 옵션이 예고됐다.
  • 주상원
[240714] Perplexity Comet, xAI Grok4, MS, OpenAI AI Browser, Genspark
Perplexity, ‘Comet’ 브라우저 & Max 플랜 Comet 정식 런칭 크롬 기반 포크에 AI 어시스턴트·오토메이션 내장 음성 입력·실시간 페이지 요약·자동 가격비교 등 ‘탭 최소화’ UX 강조 에이전트 기능 화면 컨텍스트 추적→메일 체크·SNS 포스팅 등 대행 향후 예약·결제 액션까지 확장 계획 Max 플랜(월 $200) Labs 무제한·신기능 선접근·고급 모델 옵션 제공 Comet도 초기엔 Max 구독자 독점 Coinbase 제휴 COIN50 지수·실시간 암호화폐 시세를 브라우저 내 제공 트레이더용 ‘AI-Crypto 탭’으로 수익화 채널 다각화 경쟁 지형 OpenAI·Arc·Opera AI와 ‘AI-네이티브 브라우저’ 3파전 브라우저-OS 경계 붕괴→에이전트·플러그인 스타트업 협력 기회 확대 xAI, Grok 4 공식 출시 출시·라이브스트림
  • 주상원
Amazon Deepfleet, OpenAIxOracle Stargate, Meta MSL, Grammarly Superhuman, Cerebrium
Amazon DeepFleet 발표 웨어하우스 로봇 100 만 대 돌파 2012 년 Kiva Systems 인수 이후 13 년 만에 누적 1 백만 대 로봇을 생산·배치해 ‘로봇 플릿’ 규모가 인력(약 150 만 명)에 근접. 전 세계 300 여 개 물류 거점 중 75 %가 로봇 지원으로 운영 → 아마존 배송의 75 %가 로봇과 협업해 처리됨. Proteus·Hercules·Titan 등 9종 플랫폼을 포함, ‘휴먼-패리티’(로봇 대 인력 1 : 1) 달성 목표 공식화. 로봇 운영 사이트는 비(非)로봇 사이트 대비 사고율 15 %↓, 근무 공백 18 %↓로 안전 지표도 개선. 생성형 AI ‘DeepFleet’ 주요 기능 Fulfillment 센터 내 모든 주행 로봇의 경로를 실시간 ‘교통망’처럼 조율하는 FM(Foundation Model)로, 즉시 이동 속도 10 % 향상. 내부 재고·이동 로그 수십 억 건으로 사전학습, 혼잡 구간 예측·우회로 생성으로 체증 감소 및 피킹 대기 시간 단축. 초거대 시뮬레이션에서 다중 로봇 ↔ 공간 상호작용을 생성해 ‘보지 못한’ 레이아웃도 즉시 최적화(일종의 자체 데이터 증강). 지속학습 – 자동 재훈련 루프 덕분에 신형 로봇·신규 레이아웃 추가 시 코드 수정 없이 적용. 에이전트 간 경쟁·협력 보상을 주는 강화학습(RL) 기법으로 세밀한 회피·합류 행동을 학습(AWS RL 레퍼런스 활용). Deepfleet에 차세대 로봇 ‘Vulcan’ 연동 듀얼-암(비전 + 흡착) 구조에 3D 포스 센서 탑재, 75 %의 카탈로그 품목을 인간 수준 정밀도로 피킹·적재. DeepFleet은 Vulcan의 위치·하중 데이터를 실시간 수집해 통행 우선권·속도 한계치를 동적으로 조정. 2025 Q3 피닉스·스포캔 등 5개 FC 베타 적용 후 ’26 년 20 개 센터까지 확대 계획. ‘물리 AI’ 계열 연구 논문 공개 → 타 물류 로봇 제조사와도 공용 인터페이스를 검토 중. https://youtu.be/2X4CU3jmw-g?si=UzYfy8cCoWHWIX37 로봇화 덕분에 주문 한 건당 처리비용(COGS) 최대 40 % 절감(WSJ 추정치). OpenAI × Oracle ‘Stargate’ 확장 4.5 GW ‘기가-캠퍼스’ 전력 임차 Oracle이 텍사스 애빌린(기존 1.2 GW → 2 GW) 등 다수 주(루이지애나·네바다 후보)에서 초대형 데이터센터를 신규·증설, 총 4.5 GW 용량을 OpenAI에 장기 임대하기로 합의.
  • 주상원
[20250630] Claude Artifacts, OpenAI Connector, Recode Mode, ElevenLabs eleven.ai, Deepmind AlphaGenome, Gemini CLI
목차 Anthropic · Claude Artifacts: ‘코딩-없는’ AI 앱 제작·배포 기능 전면 공개 OpenAI ChatGPT Business Stack: 드라이브·드롭박스 연결 + 데스크톱 Record Mode 출시 ElevenLabs eleven.ai: MCP(모델 컨텍스트 프로토콜)로 음성 비서의 업무 자동화 가속 Google Gemini CLI: 100만 토큰 컨텍스트로 터미널 안에서 작동하는 오픈소스 AI 에이전트 Anthropic | Claude Artifacts – AI-Powered App Studio 런칭 개요 Claude 대화창 옆 ‘Artifacts’ 탭에서 코드·UI·로직이 포함된 미니 앱을 즉시 생성·호스팅 · 공유 가능 비용 구조 앱 이용 시 호출량은 사용자 개인 구독으로 과금, 제작자는 추가 요금 없음 핵심 기능 실시간 코드 수정·디버깅, 링크-한번으로 퍼블리시, 포크 기반 협업 지원 초기 활용 사례 AI 게임, 개인화 튜터, CSV 분석 대시보드 등 커뮤니티 샘플 다수 등장 https://youtu.be/PU5P8PaeiYM OpenAI | ChatGPT Connectors & Record Mode Connectors 출시 Google Drive·SharePoint·Dropbox·Box 문서를 실시간 검색·인용 가능(Beta)
  • 주상원
[250623] Midjourney, Google Search Live, 바이두 AI쇼호스트, Heygen, Higgsfield AI Canvas
Midjourney 「V-1 비디오 모델」 첫 공개 이미지→비디오 애니메이션 Midjourney로 생성 or 업로드한 정지 이미지를 4종 영상(4 – 6 s, 24 fps)으로 자동 변환 ‘Extend Auto/Manual’ 기능: 프롬프트 추가해 5 초 단위로 후속 장면 확장 특징 미드저니 특유의 하이컬러 · 초현실 감성 유지, 실사 계열은 아직 Veo3·Kling 수준 미달 항목 Midjourney V1 Google Veo 3 Kling 1.6 해상도 1024×576 / 24fps(4–6 초) 1080p / 30fps(90 초까지) 1080p / 30fps(16 초) 텍스처·피부 디테일 브러시 · 라이팅 느낌의 ‘미드저니’ 색감이 남음 포토스캔 수준의 피부·조명 영화 트레일러 급 샷 가능 물리·카메라워크 기본 패닝·줌은 양호, 복합 동작은 물리 어색 드론샷·핸드헬드 흔들림까지 자연
  • 주상원
[250616]Apple WWDC, Meta ScaleAI 인수, AI Video, Suno, Phonely, Eleven Labs
Apple WWDC 2025 – ‘온-디바이스 AI’ 실전 적용 실시간 번역 메시지·전화·FaceTime에 즉시 자막/통역(온-디바이스 모델, 개인정보 클라우드 전송 無) 화면 예시: iOS가 스페인어↔영어 대화·일정 자동 반영 Image Playground·Genmoji 텍스트·이모티콘 두 이미지를 섞어 ‘슬로스+전구’ 등 맞춤 Genmoji 생성 Vision Pro에서도 호출 가능, 공유용 스티커/AR 연계 Shortcuts × AI 자동화 예: ‘강의 녹음→요약→노트 반영’ 워크플로우를 클릭 몇 번으로 구성 개발자용 ‘Apple Intelligence SDK’ 공개, 로컬 모델 호출 가능 Vision OS 2.0 공간 고정 위젯(가상 창·캘린더)·공동 감상 모드·더 입체적인 3D 캡처 ‘Image Playground in Vision’로 실시간 스타일 변환 Meta × Scale AI – $15 B 지분 인수 딜 구조 Meta, Scale AI 49 % 지분 확보(약 $14.8 B) Scale 창업자 Alexander Wang, Meta Super-Intelligence Lab 수장으로 합류 산업 파장 Scale AI 고객사: OpenAI·Microsoft·NVIDIA·Anthropic 등 → “데이터 중립성 훼손” 우려 Meta-Llama3 후속 모델 학습 데이터·휴먼 라벨링 독점 가능성
  • 주상원
[250609] Builder AI 사기논란, Luma AI Modify Video, AI Avatar, OpenAI Memory
Builder AI 사기논란 “코드 자동생성 AI”라 홍보했지만 실제로는 인도 엔지니어 약 700명이 수작업으로 개발. 클라이언트 대시보드에 “AI 자동 개발 진행률”처럼 표시 → 실제론 Jira·GitHub에서 인간 개발자 배정 前 직원 내부고발 메일 유출: “대량 계약 후 밤샘 파견근무… AI는 시연용 더미” 투자 Qatar Investment·SoftBank Vision Fund·Microsoft M12 등에서 총 $450M 투자 → 밸류 $1.5B 투자 유치 시 GPT-3 파워드 ‘자동 앱 빌더’ 라이브 데모 → 프론트엔드만 AI, 백엔드는 미리 짜둔 스크립트 호출 실제론 ‘라운드트리핑’(서로 청구서를 주고받아 매출 부풀리기)로 재무제표 조작 4월 말 英 고등법원 가압류 → HSBC 실사 후 주계좌 동결, 채권단 회수 착수 22개 고객사 프로젝트 중 9건 “전액 환불·손해배상 소송” 진행 중 Luma AI, "Modify Video" 공개 2025 년 6 월 2 일 Luma Labs 공식 블로그를 통해 ‘Modify Video’ 출시 발표. Dream Machine Ray 2 모델에서 최대 10 초 클립 지원. “고정 프리셋 선택 → 첫 프레임 스타일 설정 → 프롬프트/레퍼런스 프레임 추가” 순서로 작업 기존 ‘text-to-video’보다 후편집(post-production) 워크플로우를 단축해 VFX·광고·SNS 숏폼 제작 비용 절감 목표 주요 기능 카테고리 설명 장면 구조 보존 포즈·표정·카메라 움직임·깊이 등 ‘고차원 성능 시그널’을 추적해 원본 모션 유지
  • 주상원
[250602]Flux One kontext, Perplexity Labs, Factory AI ‘Droids’
Flux One kontext (Black Forest Labs) 독일의 AI 연구소인 Black Forest Labs에서 개발한 최신 이미지 생성 및 편집 도구 텍스트와 이미지를 동시에 입력받아, 사용자가 원하는 대로 이미지를 생성하거나 수정. 예를 들어, 기존의 사진에서 특정 인물의 표정이나 배경을 변경하거나, 새로운 스타일을 적용하는 등의 작업이 가능. 컨셉 : “Stable Diffusion급 리얼리즘 + GPT-Image급 편집 자유도” 핵심 기능 문맥 기반 생성: 텍스트와 이미지 둘 다를 기반으로 새로운 이미지를 생성 로컬 편집: 이미지의 특정 요소만 수정 가능 (예: 얼굴에 있는 물건 제거) 스타일 유지: 참조 이미지의 스타일을 유지한 채 새로운 장면 생성 캐릭터 일관성: 인물/사물의 정체성과 특징을 여러 장면에서 유지 고속 처리: 기존 모델 대비 최대 8배 빠른 추론 속도 단계별 편집 지원 하나의 이미지에 대해 여러 단계에 걸쳐 텍스트로 수정 가능 각 수정 단계마다 품질과 캐릭터 일관성을 유지하며 이미지 업데이트 모델 종류 FLUX.1 Kontext [pro] 텍스트 기반 생성, 이미지 기반 편집, 로컬 수정 모두 지원 빠른 속도로 반복 편집 가능 FLUX.1 Kontext [max] 프롬프트 해석력과 타이포그래피 생성 능력 향상 높은 일관성과 속도 유지
  • 주상원
[250526] Google I/O 2025, MS Build, OpenAI Device, Shopify AI Store Builder
Google I/O 2025 분류 주요 발표 디테일 & 실전 영향 ① Veo 3 (텍스트→영상) 최대 1080p·30fps·90초 - 대사·SFX·BGM 동시 합성(페르소나·감정 조절 가능).<br>· 연속 프롬프트—대본 입력→장면별 자동 컷 편집. 영상편집 초보 → 틱톡·릴스 제작까지 원-클릭 Ultra 요금제(월 250, 50% 할인 중) : 일 5 회 제한 ② Flow(베타) 타임라인 기반 ‘AI 프리미어’.Extend·Jump-to·오브젝트 삭제/삽입. V2/Veo3 혼합 가능, 장면 Extend·Jump-to·오브젝트 삭제/삽입. 스토리보드→러프컷→파이널까지 한 곳에서. 프롬프트형 파이널컷. ③ V2 업그레이드 카메라 컨트롤 (Pan, Tilt, Dolly, Zoom). Out-painting : 해상도·화각 확대 레퍼런스 이미지 두 장 → 스타일·배경 결합. “B-롤 + 카메라워크” 를 한 문장으로. ④ Imagine 4 (이미지) 텍스트 렌더링 정확도 ↑, 사진/만화 품질 ↑. “8-페이지 풀컬러 만화” 1 프롬프트 완성. 썸네일·만화·포스터 제작 속도 폭발.
  • 주상원
Google DeepMind Alpha Evolve, Absolute Zero, AI 광고, ChatGPT, 개발자도구
Google DeepMind ‘Alpha Evolve’ 공개: 자가 진화형 AI 등장 Alpha Evolve는 코드 문제를 스스로 생성·검증·개선하는 자가 학습형 AI. Gemini Flash는 아이디어를 광범위하게 생성, Gemini Pro는 그중 우수안을 정제. 1969년 이후 갱신되지 않은 복소수 행렬 곱셈 알고리즘을 개선한 사례도 등장. 활용사례 데이터센터 스케줄링 Google의 Borg 시스템에서 효율적인 스케줄링 알고리즘을 제안 전 세계 컴퓨팅 자원의 0.7% 회수 효과 발생 (1년 이상 운영 중) 하드웨어 설계 보조 행렬 곱셈을 위한 회로 최적화를 Verilog 코드 수준에서 제안 향후 TPU에 적용 예정 → AI와 하드웨어 엔지니어 협업 강화 AI 모델 학습 속도 향상 Gemini 모델의 핵심 연산을 23% 속도 개선 전체 학습 시간 1% 단축, 수백만 달러 규모의 리소스 절감 FlashAttention 커널에서 최대 32.5% 속도 향상 'Absolute Zero': 데이터 없이 학습하는 자가학습 모델 칭화대, 북경AI연구소, 펜실베이니아 주립대 공동 논문 발표. 외부 데이터 없이 AI가 스스로 학습 과제를 생성하고 해결하는 자기주도형 학습 방식입니다.. 기존의 강화학습은 고품질 데이터셋에 의존했다면, AZR은 코드 실행기를 통해 학습과 보상 루프를 자체 생성 AGI 수준은 아니며, 비즈니스/일상적 추론 영역에는 한계 있음.
  • 주상원
[250512] OpenAI Model Guide, HeyGen Avatar 4, Neflix AI Search
OpenAI 모델 가이드 발표 OpenAI, 사용자들이 다양한 GPT 모델 중 어떤 것을 어떤 상황에 써야 할지 혼란스러워함을 인식함. 이에 각 모델의 특성과 용도를 정리한 가이드 공개함. 문서명은 엔터프라이즈용이지만 일반 사용자에게도 적용 가능. 각 모델의 성능, 응답 스타일, 추천 사용 예시 등을 구체적으로 설명함. 예: GPT-4.5는 감성 표현과 창의적 글쓰기에 탁월함. 공감이 중요한 고객 대응 메일이나 마케팅 콘텐츠에 적합함. GPT-4 Mini High는 수학 계산이나 프로그래밍에서 높은 정확도 제공함. https://cookbook.openai.com/examples/partners/model_selection_guide/model_selection_guide HeyGen Avatar 4 – 한 장의 사진으로 실사 아바타 영상 생성 HeyGen Avatar 4, 한 장의 이미지와 스크립트 or 음성으로 실제 사람처럼 말하는 AI 아바타 영상 생성 가능함. 사진 업로드 후 사용자가 녹음한 음성 or 입력한 텍스트 기반으로 영상 생성. 음성의 톤, 리듬, 감정 등을 분석해 입 모양, 표정, 고개 움직임, 미세 표정까지 재현함. 단순 립싱크 수준을 넘는 자연스러운 결과물 가능. 개인 브랜딩, 유튜브 영상, 고객 응대 봇 등에 활용 가능함. NVIDIA 초고속 음성 텍스트 변환기 공개 NVIDIA, 1시간 분량 오디오를 단 1초 만에 텍스트로 바꾸는 음성 인식 모델 공개함. 현재 HuggingFace에서 무료로 체험 가능. Whisper 등 상용 음성 모델과 달리 오픈소스로 제공됨. 누구나 자유롭게 사용 가능. 오류율 6.05%로 정확도 우수. 팟캐스트, 회의, 강의 등 긴 오디오 문자화에 효율적임. 넷플릭스의 AI 기반 검색 및 쇼츠 피드 테스트 넷플릭스, “기분 좋은 로맨틱 코미디 보고 싶어” 식의 자연어 기반 생성형 AI 검색 기능을 iOS 사용자 대상으로 베타 제공 중.
  • 주상원
[250428] OpenAI Deep Research, Open-Weight LLM, Perplexity AI Agent for iOS, MS Recall
OpenAI, 무료 플랜에 Deep Research 기능 제공 ChatGPT 무료 사용자에게도 월 5회까지 Deep Research 기능 제공. Plus, Team, Pro 사용자는 기존 Deep Research 할당량 소진 시 '라이트 Deep Research'로 자동 전환. '라이트' 버전은 o4-mini 모델 기반으로, 응답이 짧아지고 비용이 절감되지만 정보의 깊이는 유지. Plus는 월 10회, Team은 월 15회, Pro는 월 125회 Deep Research 기본 제공. OpenAI, 완전 개방형 모델 출시 계획 6월경 무료로 다운로드 가능한 오픈 모델(Open-weight LLM) 출시 예정. 로컬 컴퓨터에서 인터넷 연결 없이 실행 가능, 데이터 프라이버시 확보. Meta Llama 4 이상의 성능 목표. 복잡한 쿼리는 API를 통해 GPT-4o 같은 클라우드 모델에 자동 핸드오프 가능성 있음. Perplexity AI, Siri를 능가하는 아이폰용 AI 어시스턴트 출시 iOS용 Perplexity 앱에 'Perplexity Assistant' 기능 추가. 이메일 작성, 미팅 예약 변경, 팟캐스트 재생, 일정 관리 등 실생활 지원 기능 강화. Siri 대비 실제 활용성 및 실용성이 뛰어나다는 평가. 일부 기능은 아직 베타 단계라 완성도가 완벽하지 않음. https://youtu.be/MuLXoeK-AY8 마이크로소프트, 365 Copilot에 새로운 에이전트 기능 추가 Microsoft 365 Copilot에 'Agent Store' 오픈 예정. 분석(Analyst), 리서치(Research) 전용 AI 에이전트 추가. 사용자는 원하는 에이전트를 선택해 설치 가능, 외부 툴(Jira, Dropbox, Trello 등)과 연동 가능. 데이터 기반 자동 차트 생성, 문서 작성 등 업무 생산성 향상 기대. https://youtu.be/5xj5BQUKQas?si=ukeEHEQOhbSOX1n8
  • 주상원
[250412]OpenAI GPT-4.1, Coding AI, Gemini 1.5 Flash, Antropic Claude Research
OpenAI 신규 모델 출시 및 변경사항 GPT-4, GPT-4.5 모델 서비스 종료 (4월 30일부터) ChatGPT에서는 4월 30일부터 GPT-4가 GPT-4o로 대체 GPT-4는 OpenAI API를 통해 계속 제공 최근 출시된 4.5도 함께 중단 결정GPT-4.5는 고비용 대비 성능 향상이 제한적이라는 평가로 인해 API에서의 지원이 중단될 예정 새로운 GPT-4.1 시리즈 공개 (API 전용) 버전: 4.1, 4.1 mini, 4.1 nano GPT-4.1 mini는 GPT-4o 대비 83% 저렴하며, 지연 시간도 절반 수준 (4.5 대비 약 40배 저렴) 100만 토큰 컨텍스트 (약 75만 단어) : 코디엄(Windsurf)이 실시한 200개의 PR Benchmark에서 54% vs 45.1%로 Claude 3.7 sonnet을 이겼으며, 코드 제안 task에서도 6.81/10으로 sonnet(6.66/10)보다 높은 성능을 나타냄 (100만 토큰 당 $) 모델 입력 출력 GPT-4.1 2 8 GPT-4o 3.75
  • 주상원
[250414]Meta Llama4 Benchmark issue, MS Copilot Update, Google A2A
Meta의 Llama 4 벤치마크 이슈 라마 4 모델군: Scout, Maverick, Behemoth Scout: 최대 10백만 토큰(약 7.5백만 단어) 컨텍스트 윈도우로 현존 최장 수준 Maverick: 파라미터는 더 많지만 컨텍스트 윈도우는 1백만 토큰 Behemoth(예정): 2조 파라미터로 추정, 출시 시점 불확실 LM Arena 벤치마크 논란: 메타가 제출한 실험용 모델이 일반에 공개되지 않은 최적화 버전으로 평가받아, 초기에는 높은 순위를 기록했으나 실제 공개 버전이 다시 테스트되면서 순위가 급락. 새 평가 방식 도입: LM Arena 측은 이번 사건을 계기로 평가 정책을 수정하고, “Llama-4-Maverick-17B-128E-Instruct”라는 공개 버전 기준으로 재평가를 진행. 공개 버전의 실제 성능: 재평가 결과, Llama 4 Maverick은 기존의 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 등과 견줄 때 낮은 순위를 기록. 내부고발자 “벤치마크 데이터로 모델 훈련” 폭로 → Meta 공식 부인 MS Copilot Update 메모리(Memory) 기능 확장 사용자 취향·경험 학습 반려동물 이름, 직장에서의 까다로운 프로젝트, 운동 루틴 등 세부정보 장기 보관 개인화된 제안, 알림, 선제적 대응 등 실질적 AI 비서 역할 강화 보안·개인정보 보호 대시보드 통해 사용자가 저장 정보 유형이나 기능 On/Off 결정 가능 “메모리는 진정한 AI 동반자의 핵심” (MS 공식 블로그), 개인정보 설정 중요성 강조 https://youtu.be/H54C6MVyk5U 작업 대행 ‘액션(Actions)’ 기능
  • 주상원
[250407] OpenAI 투자유치, Llama 4 공개, Google Gemini 2.5 무료화, Amazon Nova Act, AI Coding(IDE)
OpenAI: 대규모 투자 유치 & 신규 오픈소스 모델 발표 SoftBank 주도 400억 달러(58조원) 투자 기업 가치 3,000억 달러(440조원) 규모로 평가, 데이터센터·GPU 확충에 집중 투자 예정 CNBC에 따르면, 소프트뱅크는 오픈AI의 영리 기업 전환을 조건으로 투자에 참여했으며, 25년 연말까지 영리형태로 전환하지 않을 경우, 최대 100억 달러(약 14조원)의 투자금이 삭감될 수 있는 조건이 설정됐음 WSJ에 따르면 microsoft 컨소시엄이 10억 달러 규모로 추가 투자 검토 중 OpenAI는 흑자전환시점을 2029년으로 예상 중 오픈소스 언어 모델 & OpenAI Academy GPT2 이후 첫 오픈 모델 준비, 개발자·연구자와 사전 협의 통해 최적화 academy.openai.com에서 AI 교육자료(노인 대상 AI, RAG 기반 그래프 등) 온라인 강의 제공 Llama 4 공개(Scout, Maverick) 모델 특징 17B Base 모델에 MoE 적용 총 3가지 모델 공개(Behemoth는 추후 공개예정) 기술적 핵심요소 MoE 아키텍처 (Mixture of Experts) 일부 전문가만 활성화해 연산 효율화 Native 멀티모달 & Early Fusion 텍스트와 이미지 데이터를 초기부터 통합 학습 이미지 최대 48장 입력 가능 iRoPE 기반 초장문 문맥 처리 10M 토큰, '무한 문맥' 가능성
  • 주상원
[250324] GPT-4.0 Audio API Update, Claude Web Search, NVIDIA GTC, TX-Gemma, Adobe AI Agents, xAI Hotshot M&A
OpenAI, Whisper를 넘어서는 차세대 음성 인식 모델 (STT, TTS) 배경 OpenAI는 Whisper는 오픈소스로 공개되어 대중적 지지를 받았지만, 속도와 일부 언어에서의 정확도 측면에서 한계가 있었음 GPT-4.0 및 Mini는 OpenAI가 내부적으로 연구·개발한 차세대 음성 인식 모델로, Whisper를 대체할 만한 ‘상위 버전’ 주요 기능/특징 정확도(Accuracy) 영어 기준으로 Whisper 대비 오류율이 눈에 띄게 낮아짐. 억양이 복잡하거나 주변 소음이 많은 환경에서도 인식 성능이 개선. 처리 속도(Throughput) Whisper보다 최대 2배 이상 빠른 처리 속도를 제공한다고 발표. 실시간 스트리밍 환경(예: 컨퍼런스, 라이브 방송)에서도 유용. Voice Cancellation & Activity Detection Voice Cancellation: 고음질 마이크가 아닌 상황에서도 배경 소음을 줄여주는 기능. Voice Activity Detection: 사람이 실제로 말하는 구간만 정확히 인식하여 불필요한 공백을 줄임. 가격 경쟁력 분당 0.5~0.6센트 수준으로, 업계 최저 수준. (Whisper 대비 경쟁력 확보) 시장 반응 기업용 콜센터, 온라인 세미나 플랫폼, 대규모 컨퍼런스 운영사 등이 이미 테스트를 진행 중인 것으로 알려짐. 기존에 Whisper를 사용하던 개발자 커뮤니티도 전환을 고려할 만큼 매력적이라는 평가가 다수. 활용사례 콜센터 자동화: 상담원의 음성을 실시간으로 텍스트화하여 고객 이슈를 분석하고 FAQ 연동.
  • 주상원
Made with Slashpage