Weekly-ai

한주간의 AI 소식을 전달합니다.

[251215] GPT-5.2, Gemini Deep Research Agent + Interactions API, MCP 전면화, Starcloud 우주에서 AI 모델 학습/실행, Disney × OpenAI, Google Labs Disco

OpenAI, GPT-5.2 정식 공개 개요 OpenAI가 12월 11일 GPT-5.2를 정식 출시하며 '전문작업(스프레드시트/문서/코드/툴 호출)' 성능을 전면에 내세움 자체 개발한 GDPval 벤치마크(44개 직무, 1,320개 태스크)에서 전문가 대비 우위/동률 70.9%를 기록 핵심 내용 제품 라인업 및 가격 Instant(빠른 응답), Thinking(코딩/수학/계획), Pro(최고 정확도) 컨텍스트 윈도우: 400,000 토큰, 최대 출력 토큰 128,000개 지식 컷오프: 2025년 8월 31일 API 가격: GPT-5.2 Thinking — $1.75/백만 입력 토큰, $14/백만 출력 토큰 (GPT-5.1 대비 40% 인상) 성능 벤치마크 GDPval: 70.9% (GPT-5.1 Thinking 38.8%, Gemini 3 Pro 53.3%, Claude Opus 4.5 59.6%) SWE-Bench Pro(소프트웨어 엔지니어링): 55.6% (Gemini 3 Pro 43.3%, GPT-5.1 50.9%) GPQA Diamond(대학원 과학 추론): GPT-5.2 Pro 93.2% (Gemini 3 Deep Think 93.8%와 근소한 차이) AIME 2025(수학): 100% (도구 없이 달성, Gemini 3 Pro는 코드 실행 필요) ARC-AGI-1: GPT-5.2 Pro가 최초로 90% 돌파 (90.5%) 실무 적용 사례 투자은행 스프레드시트 모델링: 주니어 IB 애널리스트 업무(3-statement 모델, LBO 모델) 내부 평가에서 GPT-5.1 대비 9.3%p 상승 (59.1%→68.4%) Box 테스트: 복잡한 문서에서 정보 추출 속도 40% 향상, 생명과학/의료 분야 추론 정확도 40% 향상 환각 감소: GPT-5.1 대비 38% 감소 (사실 기반 질문 벤치마크 기준)

주

주상원

Dec 14, 2025 10:31 PM

[251208] DeepSeek V3.2, Gemini 3 Deep Think, OpenAI Code Red, Claude Code ARR $1B, NVIDIA Open AI Stack, Workspace Studio

DeepSeek, V3.2 & V3.2-Speciale 공개 개요 중국의 AI 개발사 DeepSeek이 차세대 언어모델 V3.2와 고성능 변형 모델 V3.2-Speciale을 공개. 이번 모델은 오픈소스 공개(MIT 라이선스), 프런티어급 성능, 비용 효율, 추론 능력 강화를 핵심 특징으로 하며, 글로벌 AI 모델 경쟁 구도에 직접적인 변화를 일으키는 발표로 평가되는 상황. 핵심 내용 모델 공개 범위 DeepSeek-V3.2 웹, 앱, API를 통해 즉시 사용 가능 일반 추론, 코딩, 분석, 멀티스텝 작업 등 범용 작업에 최적화된 모델 구조 DeepSeek-V3.2-Speciale 계산량을 확장한 고출력 버전 현재 API를 통해 우선 제공 Hugging Face를 통해 가중치 전체 공개(MIT 라이선스) 기술적 특징 — Sparse Attention 기반 구조 핵심 메커니즘: DSA(DeepSeek Sparse Attention) 긴 문서(롱컨텍스트) 처리 시 불필요한 연산을 줄이고, 중요한 부분만 선택적으로 집중 기존 Dense Attention 대비 메모리 사용량 감소, 추론 속도 향상, 비용 절감을 동시에 확보 대형 모델에서 흔히 발생하는 "문맥 혼잡 문제"를 완화하는 구조적 강점 성능 — 수학·코딩·추론 벤치마크 상위권 기록 IMO·IOI 스타일 문제 해결 능력 강화 DeepSeek 측 자료 기준, V3.2-Speciale는 수학·알고리즘 문제에서 "골드 레벨" 수준

주

주상원

Dec 7, 2025 6:55 PM

[251201] Claude Opus 4.5, Microsoft Fara-7B, DeepSeek-Math-V2, Adobe Photoshop Web, US Genesis Mission, Tencent HunyuanOCR, ChatGPT Voice Integration

Claude Opus 4.5 출시 개요 Anthropic이 플래그십 모델 Claude Opus 4.5를 발표. 코딩·에이전트·사무 작업에서 기존 Opus 대비 성능을 끌어올리면서도, 가격을 크게 낮춰 엔터프라이즈 실사용을 정면 타깃으로 하는 업그레이드. 핵심 포인트 Anthropic이 Opus 4.5를 "지금까지 가장 지능적인 모델"로 정의, 특히 코딩·에이전트·컴퓨터 활용 영역에서 Gemini 3, GPT-5.1 대비 우위 주장 SWE-Bench Verified 등 소프트웨어 엔지니어링 벤치마크에서 최상위 성능 기록. 실무형 버그 수정·리팩토링에서 강점 강조 가격: 입력 100만 토큰당 5달러 / 출력 25달러로 약 67% 인하, "부티크형" 모델에서 일반 엔터프라이즈용 가격대로 재포지셔닝 Anthropic은 이 모델을 자사 앱·API·3대 클라우드(AWS·GCP·Azure)에 모두 탑재해 배포망 확대 제품·기술 특징 에이전트 특화: 엑셀·슬라이드·브라우저·데스크톱 앱을 오가며 멀티스텝 워크플로를 실행하는 "디지털 직원" 콘셉트 강화 안전성 강화: 프롬프트 인젝션·악성 코드 생성 등 에이전트 특유의 리스크를 줄이기 위한 방어 체계를 강조. 악성 코딩 요청에 대해 높은 거부율을 달성했다는 시스템 카드 공개 긴 맥락·정리 능력 개선: 긴 대화·복잡한 입력에서도 포맷팅·시각적 구조화 능력이 좋아져, 리포트·스프레드시트·리서치 요약 등 "문서형 결과물" 생산에 최적화 Microsoft, Fara-7B 모델 출시 – 온디바이스 "Computer Use Agent" 개요 Microsoft가 Fara-7B라는 7B 파라미터급 "컴퓨터 사용 에이전트(CUA)" 모델 공개. 브라우저와 데스크톱 화면을 직접 조작하는 온디바이스형 에이전트 SLM. 핵심 포인트 Fara-7B는 "컴퓨터 사용(Computer Use)"을 위해 설계된 소형 에이전트 모델. 스크린샷, 사용자 지시, 과거 행동 이력을 입력으로 받아 실제 사람처럼 클릭·스크롤·입력 수행 PC에서 네이티브 실행 가능: 로컬 GPU/CPU 환경에서도 돌아가도록 최적화되어, 데이터 프라이버시·지연시간 측면에서 클라우드형 에이전트와 차별화 오픈소스(SLM)로 GitHub에 공개, Qwen 계열을 기반으로 한 것으로 알려짐 기능·성능

주

주상원

Nov 30, 2025 9:36 PM

[251124] Google Gemini 3, Gemini 3 Pro 의료 영상 RadLE v1에서 전공의 수준 돌파, Meta, SAM 3 / SAM 3D 오픈소스 공개, Anthropic – Microsoft – NVIDIA 3자 전략적 파트너십

구글, 차세대 AI 모델 Gemini 3 공식 발표 Gemini 3 라인업의 첫 모델은 Gemini 3 Pro이며, API에서는 gemini-3-pro-preview, 이미지 전용은 gemini-3-pro-image-preview로 제공됩니다. 핵심 기술 포인트 추론(Reasoning) 특화 + "생각 모드" 제어 개발자 문서에 thinking_level 파라미터가 새로 들어갔음 low: 빠르고 저렴한 응답(일반 채팅·고처리량 서비스용) high(기본): 내부 추론을 깊게 돌려 복잡한 문제 해결용 이와 별도로, 구글은 소비자용 제품에 "Gemini 3 Deep Think"라는 고난도 추론 모드를 예고. Ultra 요금제 사용자에게 우선 제공될 예정 멀티모달 업그레이드와 해상도 제어 media_resolution 파라미터로 이미지·PDF·동영상의 해상도별 토큰 사용량과 정밀도를 직접 제어할 수 있음. 이미지에는 high(1120 토큰) 사용을 권장하고, 동영상은 프레임당 토큰을 강하게 압축해 장면 전체를 다루도록 설계 거대한 컨텍스트 윈도우 gemini-3-pro-preview는 내부 100만 토큰 / 외부 6.4만 토큰 수준의 컨텍스트 윈도우를 제공 사실상 "장편 문서 + 코드베이스 + 이미지"를 한 번에 태우고 장시간 추론하는 용도에 맞춘 스펙 안전성·방어력 강조 공식 블로그는 Gemini 3가 지금까지 구글이 만든 모델 중 가장 광범위한 안전성 평가를 받은 모델이라고 주장하며, 프롬프트 인젝션, 시코팬시(사용자 말에 무비판적 동조), 사이버 공격 악용 등에 대한 방어가 강화됐다고 설명 제품 라인에의 통합 출시와 동시에 Gemini 앱, Google AI Studio, Vertex AI, Google Workspace 등 거의 전 제품군에 걸쳐 통합이 진행 중 시장·경쟁 구도에서의 의미 구글 입장에서는 Gemini 2.5 때 확보한 "멀티모달·롱컨텍스트" 우위를 정교한 추론 제어(thinking level)와 에이전트 워크플로로 한 단계 더 올린 그림 Gemini 3 Pro, 의료 영상 RadLE v1에서 전공의 수준 돌파

주

주상원

Nov 23, 2025 10:44 PM

[251117] OpenAI GPT-5.1, OpenAI, ChatGPT Group Chat, Anthropic DataCenter, Elon Musk Orbital AI Data Centers

OpenAI, GPT-5.1 발표 GPT-5.1, 기존 GPT-5 대비 개선된 두 가지 버전 출시 Instant: 가장 많이 사용되는 모델로, 대화 스타일이 더 따뜻하고 자연스럽게 개선됨. 사용자 요청에 더 잘 반응하며 직관적인 대화 흐름을 유지함. Thinking: 복잡한 문제에 대해 더 깊이 사고하고, 단순한 요청은 더 빠르게 처리. 응답 속도와 사고시간을 태스크 난이도에 따라 동적으로 조절함. 개인화 기능 강화 및 커스터마이징 확대 사용자 성향에 맞춰 ChatGPT의 톤을 Default, Friendly, Professional, Quirky, Candid, Efficient, Nerdy, Cynical 등으로 설정 가능. 응답의 길이, 따뜻함, 이모지 사용 빈도 등을 세밀하게 조정할 수 있는 실험적 기능도 일부 유저에게 제공 시작. 모델 응답 품질 및 사용성 개선 지시 이해 및 응답 충실도 향상: "Always respond with six words" 같은 지시에 더욱 정확하게 반응. 코드, 수학, 기술 개념 설명에서 더 명확하고 적절한 문장 사용. 난해한 전문용어 사용을 줄이고 이해하기 쉬운 언어로 설명. 기술적 메트릭에서의 개선 AIME 2025, Codeforces 등 수학 및 코딩 테스트 성능에서 GPT-5 대비 향상된 성적을 보임. Thinking 버전은 단순한 요청에 대해 최대 2배 빠르게, 복잡한 문제에 대해선 최대 2배 더 오랜 사고시간을 투자하여 정교한 답변 제공. API 및 상업적 활용 확대 GPT-5.1 Instant는 gpt-5.1-chat-latest, GPT-5.1 Thinking은 gpt-5.1으로 API에 출시 예정. GPT-5.1은 Pro, Plus, Go, Business 등 유료 계정에 먼저 제공되며, 순차적으로 무료 사용자에게도 확산 예정. OpenAI, ChatGPT에 그룹 채팅 기능 도입 기능 개요: 최대 20명까지 함께하는 AI 기반 대화 공간 사용자는 친구, 가족, 동료 등과 함께 하나의 채팅방을 생성해 ChatGPT와 공동으로 대화, 기획, 의사결정을 할 수 있음. 기존 1:1 ChatGPT 대화와는 별도로 분리된 공간에서 대화가 진행되며, 각 사용자의 개인 메모리는 공유되지 않음.

주

주상원

Nov 17, 2025 12:24 AM

[251110] Anthropic – 'Code Mode, Google DeepMind – File Search Tool, Google Research 'Nested Learning', Moonshot AI, Kimi K2 Thinking

Anthropic – 'Code Mode' AI 에이전트가 외부 툴과 데이터를 연동할 때 사용하는 MCP(Model Context Protocol) 방식에서, Anthropic은 기존 '직접 툴 호출 방식' 대신 모델이 코드를 작성해 MCP 툴을 사용하는 방식(Code Mode)을 제안함. 기존 방식은 모든 툴 설명과 중간 결과가 모델 문맥(context)에 포함되어 비용과 지연이 크다는 한계가 있었음. Code Mode는 필요한 툴만 불러오고, 중간 데이터를 코드 실행 환경에서 처리해 문맥 부담을 줄이는 방식임. 기존 방식의 한계 MCP 툴 정의(이름, 파라미터, 설명 등)가 모델 컨텍스트에 모두 포함됨 → 수천 개 툴 연결 시 토큰 비용 폭증 중간 결과(예: 문서 내용, 시트 데이터)가 모델을 통해 여러 차례 전달되어 지연 및 오류 가능성 증가 조건문, 반복문 등 제어 흐름은 모델이 단계별로 평가해야 하므로 비효율적 Code Mode 방식의 특징 각 툴을 TypeScript 파일로 구조화하고, 모델이 파일 시스템을 탐색해 필요한 툴만 import하여 사용 툴 사용은 직접 호출이 아닌 코드 작성 방식으로 진행됨 (import * as gdrive from './servers/google-drive') 중간 데이터는 모델이 아닌 코드 실행 환경에서 처리되므로 토큰 사용량 절감 루프, 조건문, 에러처리 등 복잡한 흐름을 코드로 표현 가능 민감 데이터는 코드 환경 내에서만 처리되고 모델에는 전달되지 않아 보안성 높음 툴 선택 방식 모든 툴 정의를 모델이 처음부터 읽는 것이 아니라, 디렉터리 탐색이나 search_tools 기능으로 필요한 툴만 점진적으로 탐색 예: 모델이 fs.readdir(./servers/) 명령으로 서버 목록 탐색 → 필요한 서버 내부 파일(updateRecord.ts 등)만 열람 툴 선택은 모델이 자동으로 판단하거나, 사용자가 명시적으로 범위를 지정하는 방식 모두 가능 시장 영향 및 시사점 수많은 툴과 연결되는 대형 에이전트 워크플로우의 성능·비용 병목을 해결하는 실질적인 구조 개선 방안으로 평가됨 Cloudflare, Workato 등도 유사한 구조(Code Mode 기반 MCP 연동)를 채택하면서 코드 기반 자동화가 에이전트 설계의 표준으로 자리잡는 중

주

주상원

Nov 9, 2025 8:35 PM

[251103] OpenAI Update and Q&A with Sam Altman, MS AI Diffusion Report

OpenAI Update and Q&A with Sam Altman OpenAI의 '초지능' 로드맵 발표 메시지: "AGI(인간 수준 지능)를 넘어 초지능 (Super‑Intelligence)으로"라는 표현이 나왔음 의미: 인간과 유사한 지능을 가진 AI를 넘어서, 인간이 도달하지 못한 영역까지 지능이 확대될 수 있다는 전망으로, 이런 수준의 AI가 가능해지면 연구개발(R&D), 신약개발, 신소재 탐색, 기후변화 대응 등에서 지금까지의 산업 구조가 바뀔 수 있음. 인프라 확대와 'AI 클라우드' 생태계 OpenAI는 자신을 단순히 챗봇 서비스 제공자(provide AI)로 보는 게 아니라, 전 세계 개발자·기업이 AI 애플리케이션을 구축할 수 있는 플랫폼 인프라 제공자(AI 클라우드)로 보고 있음. 현재 투자 및 약정 상황 약 30 GW 규모 인프라 약정 완료 (투자액 약 1.4 조 달러) NVIDIA와 100억 달러 규모 파트너십 (10 GW 데이터센터 구축) AMD와 6 GW 규모 파트너십 목표: 매주 1 GW 컴퓨팅을 생산하는 '인프라 공장'화 AI 연구 자동화의 구체적 타임라인 2026년 9월: AI가 '연구 인턴' 수준으로, 인간 연구자를 의미 있게 가속화 2026년 말: 작지만 의미 있는 과학적 발견 시작 2028년 3월: 완전 자동화된 AI 연구원 실현 2028년 이후: 중대한 과학적 돌파구, 재귀적 자기개선 시작 가치정렬(Value Alignment)과 안전성 전략 '가치정렬'이란 AI 시스템이 인간이 의도한 목표·가치와 일치하도록 만드는 것을 의미함.

주

주상원

Nov 3, 2025 12:53 AM

[251027] Anthropic Claude Code web version, OpenAI Atlas, Google AI Studio Vibe Coding, Genspark AI Developer 2.0

Anthropic – Claude Code 웹·iOS 버전 출시(https://claude.ai/code/onboarding) 개요 기존에는 CLI(터미널) 기반으로만 제공되던 Claude Code가 웹 브라우저 및 iOS 앱에서도 사용할 수 있게 됨. 브라우저에서는 클릭 한 번으로 'Code' 탭에 접근 가능하며, iOS 앱에서도 동일한 기능이 제공됨. 현재 Pro 및 Max 구독자를 대상으로 '연구 프리뷰(research preview)' 형태로 제공되고 있음. 주요 기능 및 특징 웹 인터페이스를 통해 터미널 없이도 프로젝트를 연결하고 코드 분석, 수정, 테스트, PR 생성까지 가능함. GitHub 리포지토리를 직접 연동할 수 있으며, 여러 개의 AI 에이전트를 병렬로 운영하는 Workspace 기능도 지원함. 격리된 샌드박스 환경에서 코드가 실행되며, 네트워크·파일 접근은 제한됨. 병렬 작업이 가능하여, 예를 들어 UI 컴포넌트 작성과 테스트 코드 생성을 동시에 수행할 수 있음. 시장 영향 및 경쟁 맥락 GitHub Copilot 등과 경쟁이 더욱 심화될 것으로 보임. 브라우저 기반으로 접근성을 확대한 점은 기존 설치형 IDE와의 경쟁 구도를 변화시킬 가능성이 있음. 특히 '설치 없이 사용 가능한' 워크플로우에 대한 수요 증가에 부합함. 가격 현재는 Pro 및 Max 유료 구독자만 이용 가능함. Pro 요금제는 월 20달러 수준이며, Max는 사용량에 따라 100~200달러 수준 아직 무료 사용자는 이용할 수 없는 프리뷰 단계에 있음. 시사점 AI 기반 개발 환경이 터미널에서 웹·모바일로 전환되는 중요한 흐름을 보여주는 사례임. 초기 설정이 필요 없는 브라우저 기반 코딩 환경은 개발자뿐 아니라 비개발자에게도 진입 장벽을 낮춰줄 수 있음.

주

주상원

Oct 26, 2025 4:56 PM

[250929] OpenAI ChatGPT Pulse, Luma AI Ray3, Google Deepmind ER1.5, Ailbaba Qwen3 6개모델 공개

OpenAI, ChatGPT Pulse 출시 — 개인화 AI 비서의 진화 OpenAI는 ChatGPT에 새로운 에이전트 기능인 Pulse를 도입. Pulse는 사용자의 메모리, 캘린더, 이메일, 과거 대화 등의 정보를 바탕으로, 매일 아침 시각적 카드 형식의 업데이트 브리핑을 제공하는 개인화 비서 기능. 단순한 응답형 챗봇에서, 능동적으로 정보를 수집·분석해 제공하는 비동기형 AI 비서로의 전환을 상징. 기능 개요 및 사용 조건 현재는 ChatGPT Pro 구독자 대상, 모바일 앱(iOS/Android)에서만 사용 가능. 밤 사이 백그라운드에서 정보를 수집한 후 아침에 카드 형태로 브리핑. 카드 예시: 일정 요약, 회의 아이디어, 관심 주제 추천, 대화 기반 후속 제안 등. 기능 활성화를 위해서는 Memory 기능이 켜져 있어야 하며, Gmail/Google Calendar 연동은 선택적으로 설정 가능. 사용자 제어 기능 강화 각 업데이트 카드는 thumbs-up/down 평가 가능. 관심 있는 주제는 더 보고, 관심 없는 주제는 덜 보이게 조정 가능 (Curate 기능). 사용자는 제안의 주제, 빈도, 연동 범위를 직접 설정할 수 있음. 에이전트형 AI 전환의 서막 Pulse는 ChatGPT가 단순한 생성형 AI에서 벗어나 지속적인 사용자 맥락 인식 → 능동적 정보 제공 → 자동화된 행동 유도로 발전하는 전환점. OpenAI는 Pulse를 "AI that moves for you"라고 정의하며, 향후 사용자가 지시하지 않아도 유용한 제안을 스스로 제공하는 방향으로 개발 중. 구독 유지, 에코시스템 진화 Pro 사용자 전용 기능으로 Pulse를 출시함으로써, 고가치 구독자 유지 및 신규 유입 유도 역할. 외부 서비스(Google Apps 등)와의 통합을 통해 OpenAI 중심의 생산성 생태계 구축 시도. 장기적으로는 업무 자동화, 개인화 에이전트, 개인 일정 관리 등 B2C 업무 에이전트 시장 공략 가능성. https://openai.com/index/introducing-chatgpt-pulse/

주

주상원

Sep 28, 2025 10:48 PM

[250922] Scale AI 미국 국방부 계약체결, Workday Sana 인수, Atlassian DX 인수, xAI Grok 4 Fast, OpenAI GPT-5-Codex

Scale AI, 미국 국방부 (DoD) 계약 체결 계약 요약 최대 약 1억 USD 규모의 계약. 5년 계약이며, 첫 프로젝트는 약 4,070만 달러 규모. 목적은 "top secret networks" 상에서 AI 활용 가능한 데이터 준비 (AI‑ready data) 제공. 미국 국방부(DoD) / 정보기관 같은 곳에서는 비밀 등급(classification) 시스템을 갖고 있고, 정보의 민감도(level)를 구분함. 예컨대 Secret, Top Secret, 그리고 그보다 더 엄격한 "Sensitive Compartmented Information (SCI)" 등급 등이 있음. 이 등급이 높을수록 접근 통제, 암호화, 인프라 보안, 승인 절차 등이 엄격함. "Top Secret networks"는 이런 최상위 비밀 정보가 오가는 네트워크(intranet / communication / data storage system)를 의미함. 예를 들어 JWICS (Joint Worldwide Intelligence Communications System)가 그러한 네트워크 중 하나임. 네트워크에 있는 데이터들을 AI 처리가 가능한 형태로 전처리(data curation / labeling / cleaning)해 주는 역할. ‘비정형 데이터(unstructured data)’를 주석(annotation) 달고, 정형/비정형 데이터를 모델 학습이나 추론(inference)에 쓸 수 있도록 만들기 위한 준비 작업이 중심임. 전략적 중요성 보안 / 국가 안보 영역으로 AI 사용이 확장됨. 데이터 라벨링, 프라이버시/보안이 매우 민감한 환경에서의 AI 적용 케이스가 늘고 있음. Workday, HR스타트업 Sana 인수 인수 개요 Workday, 미국의 대표적인 클라우드 기반 HR/재무 소프트웨어 기업이, AI‑기반 지식 관리 스타트업 Sana를 11억 달러(약 1.4조 원)에 인수하기로 발표. Sana는 AI‑네이티브 플랫폼을 보유한 기업 기업 내 학습 시스템(LMS) 지식 관리 플랫폼(Knowledge management) AI 기반 Q&A, 자동화된 문서 응답 시스템 전략적 효과 Workday는 Sana의 기술을 통합함으로써 자사 제품군(특히 HR, 인재 관리, 직원 교육 영역)에 다음 기능들을 강화할 계획: AI 기반 직원 온보딩 자동화

주

주상원

Sep 21, 2025 10:22 PM

[250915] Claude MSOffice연동, ByteDance Seeddream, Google Veo3, Meta Black Forest Labs 인수

Claude, Excel·PowerPoint 직접 편집 기능 출시 개요 Anthropic은 9월 9일 Claude가 Excel 스프레드시트, Word 문서, PowerPoint 슬라이드, PDF를 직접 생성하고 편집할 수 있는 기능을 발표. 이 기능은 현재 Max, Team, Enterprise 플랜 사용자에게 제공되며, Pro 사용자들은 몇 주 내에 이용 가능할 예정 핵심기능 통합 파일 작업: 단순한 텍스트 응답이 아닌 실제 파일을 생성하고 편집 크로스 포맷 변환: PDF를 PowerPoint로, 회의록을 구조화된 문서로 자동 변환 데이터 분석 강화: Python 스크립트 생성, 데이터 시각화, CSV/TSV 파일 분석 Google Drive 연동: 생성된 파일을 바로 Google Drive에 저장 가능 시사점 Claude는 "조언자에서 능동적인 협력자로" 변모 중. Anthropic 이는 AI가 단순한 텍스트 생성을 넘어 실무에서 즉시 활용 가능한 결과물을 만들어내는 단계로 진화했음을 의미함. 특히 재무 모델링, 프로젝트 추적, 예산 템플릿 등 복잡한 업무를 몇 분 만에 처리할 수 있어 업무 생산성에 혁명적 변화를 예고. ByteDance Seeddream 4.0 vs Google 'Nano Banana' 개요 ByteDance가 Google DeepMind의 화제작 'Nano Banana'(Gemini 2.5 Flash Image)에 대항하는 이미지 생성 AI 'Seeddream 4.0'을 출시. Seeddream 4.0 특징 속도: 2K 고해상도 이미지를 1.8초 만에 생성 Seedream 4.0 일관성: 최대 9개의 일치하는 이미지를 동시 생성 가능 편집 기능: 배경 교체, 객체 추가/제거, 스타일 변환 등 포괄적 편집 가격: 이미지당 약 3센트 (Nano Banana는 무료 제공 중) 성능 비교 ByteDance는 Seeddream 4.0이 내부 평가 벤치마크 MagicBench에서 프롬프트 준수, 정렬, 미학 측면에서 Gemini 2.5 Flash Image를 능가했다고 주장

주

주상원

Sep 15, 2025 8:49 AM

[250901] Google Gemini 2.5 Flash Image(나노바나나), Perplexity Comet Plus

Google, Gemini 2.5 Flash Image(나노바나나) 정식 출시 개요 Gemini 2.5 제품군의 이미지 전용·멀티모달 편집/생성 모델. 2.5 Flash 라인의 “저지연·저비용” 철학을 계승하면서도 이미지 생성/편집·주석화 등 실무형 기능을 전면에 배치 8월 말 기준 Google Cloud/Vertex·AI Studio에서 사용 가능하며, Adobe Firefly/Express에 기본 모델로 통합되며 대중 확산이 급가속 시사점 구글은 Gemini 2.5 Flash Image를 통해 이미지 생성 시장에서 단순히 “예쁜 그림”을 만드는 차원을 넘어, 일상적인 그래픽 편집 업무 자체를 모델이 흡수하는 전환점을 만들고 있음 포토샵에서 수 분~수십 분 걸리는 단순 편집(배경 변경, 오브젝트 치환, 색감 조정)이 텍스트 한 줄로 해결. 즉, 대중시장에서는 어도비·캔바의 일부 기능을 잠식하고, 엔터프라이즈에선 대량 자동화 워크플로에 들어갈 수 있는 잠재력을 보여줌 이 포지셔닝이 중요한 이유는, MidJourney/Stable Diffusion이 “창작자·아티스트 도구”였다면, Gemini Flash Image는 마케터·기획자·현업 사용자를 직접 겨냥 핵심 기능과 차별화 포인트 지식 기반 이미지 편집 단순 그림 합성이 아니라, 모델이 세계 지식을 활용해 사진 속 건물·장소를 인식하고 주석을 추가할 수 있음. 이는 단순 그래픽 편집툴이 못하는 영역 → AR·로컬 가이드·교육용 콘텐츠 등으로 확장 가능. 빠르고 저렴한 처리 “Flash” 네이밍 그대로, 저지연·저비용에 최적화. 대규모 광고 캠페인의 수십~수백 개 변형 이미지를 빠르게 생산 가능. 스타일·구조 변환 아이소메트릭 뷰, 주야간 변환, 건물 재해석 등 공간적 변형이 강점. 제품 카탈로그, 게임·메타버스용 에셋 제작에 응용. 엔터프라이즈 통합성

주

주상원

Aug 31, 2025 2:18 PM

[250825] MIT NANDA, Aibaba QWEN-Image-edit, Google Pixel 10, Dynamics Lab Mirage, MS Excel copilot

MIT NANDA 요약 (Executive Summary) 2025년 현재 전 세계 기업들은 생성형 AI(GenAI)에 3~4조 원 규모의 투자를 진행했으나, 95%의 기업은 수익을 내지 못하고 있음. 극히 일부(5%)의 기업만이 AI 파일럿을 통해 수백만 달러 이상의 가치를 창출. 원인: 모델 품질이나 규제가 아니라, “학습 능력(learning capability)” 부족. ChatGPT, Copilot 같은 범용 도구는 빠르게 확산됐지만, P&L(손익)에 직접적 영향은 거의 없음. 기업용 맞춤형 AI는 60%가 평가했지만 5%만 실제 운영까지 도달. 실패 이유는 맥락 학습 부족, 워크플로우 부적합, 지속적 개선 불가. GenAI Divide: 채택은 활발, 변혁은 미미 9개 주요 산업 중 실질적 구조적 변화는 기술(Tech), 미디어(Media) 두 분야에만 뚜렷하게 나타남. 나머지 산업(의료, 금융, 소비재, 제조, 에너지 등)은 투자 대비 변화 거의 없음. 대기업일수록 파일럿은 많으나 확산율은 낮음, 반대로 중견기업은 더 빠르게 전환 성공. 왜 파일럿이 멈추는가? (Learning Gap) 5%만이 생산 단계 진입 → 나머지는 기억·학습·적응 불가능으로 중단. 개인 차원에서는 이미 “섀도우 AI(shadow AI)” 사용 활발: 90% 직원이 ChatGPT, Claude 같은 개인 계정을 사용. 하지만 기업 공식 LLM 구독은 40%에 불과. 투자 편향: 기업들은 매출·마케팅 부문(70%)에 집중, 반면 백오피스 자동화가 ROI는 더 크지만 소외됨. 사용자가 원하는 것

주

주상원

Aug 25, 2025 8:50 AM

[250818] OpenAI 국제정보올림피아드 금메달, Genspark 회의록 애플워치앱, Google nano-banana, OpenAI Prompt Optimizer, Google Gemma3 270M

OpenAI의 AI 추론 시스템 – 국제정보올림피아드 금메달 대회 및 성과 요약 OpenAI의 추론 시스템이 2025년 국제정보올림피아드(IOI) 온라인 AI 부문에서 금메달 수준(gold medal-level) 성과를 올렸음 이틀에 걸쳐 하루 5시간 동안 3문제씩 알고리즘이나 그래프이론과 같은 컴퓨터 프로그래밍 문제를 풀도록 진행 전체 330명의 인간 참가자 중 6위, AI 참가자는 최고 성적(AI 중 1위)을 기록 2024년 대비 성적이 기하급수적으로 향상했으며, 49%(브론즈 미달)에서 98%로 도약했습니다. 모델 전략 및 사용 방식 특별히 IOI용으로 튜닝된 모델이 아닌, 일반 목적의 추론 모델 앙상블(general-purpose reasoning model ensemble)을 사용. 인간과 동일한 규칙(5시간 시간 제한, 최대 50회 제출 등)을 준수 Genspark, 애플워치용 회의록 생성 AI 공개 Genspark는 세계 최초로, Apple Watch에서 바로 사용할 수 있는 AI 회의록 생성 도구인 "Genspark AI Meeting Notes"를 공개 주요 특징: Apple Watch에서 더블 탭 한 번으로 회의 녹음을 시작하고, 백그라운드에서 자동으로 계속 녹음됩니다. Google 또는 Outlook 캘린더와 연동되어 회의에 맞추어 자동으로 녹음을 시작 기능 종료 후, AI가 회의 전체를 분석하여 요약 / 핵심 토의 사항 / 액션 아이템을 자동으로 생성해 참가자에게 전달 iOS와 Android용 앱에도 동일 기능을 제공하며, watchOS 11.1 이상이 필요 https://youtu.be/3l5w4MPcT1s?si=ZUHiYXi5aVuAQ5YD Google(추정) 신규이미지모델 nano‑banana 개요 이 모델은 LMArena의 Image Edit Arena에 조용히 등장했으며, 초기에는 공식 발표 없이 커뮤니티 내부에서만 공유.

주

주상원

Aug 17, 2025 3:51 PM

OpenAI GPT-5, gpt-oss, Google Deepmind Genie3,

OpenAI, GPT-5 공개 ChatGPT: GPT-5가 통합 라우터로 작업별 최적 모델을 자동 선택(특히 일반 사용자 UX 개선). API: gpt-5/mini/nano 3종 공개, Chat 전용 gpt-5-chat-latest도 제공. 일반·팀/엔터프라이즈 롤아웃과 API 동시 개시. 기업용 GPT-5 Pro(확장 추론) 예고. 향후 무료 계정도 단계적 접근 예정 모델 아키텍처/시스템 설계(개발자 관점) 초장문 컨텍스트 & 토크나이저 입력 최대 272k, 추론·출력 합쳐 128k까지(총 40만 토큰 처리). 롱컨텍스트 전용 벤치에서 o3·4.1 대비 우위. 추론 제어 & 응답 스타일 reasoning_effort = minimal/low/medium/high로 생각 시간-지연 트레이드오프 제어, verbosity로 출력 길이 제어. 툴콜/에이전트 강화 plaintext 커스텀 툴(정규식/CFG로 포맷 강제), 가시적 프리앰블로 진행상태 설명, 병렬 툴콜·에러 복구 개선. 성능(벤치마크 & 내부 시연) 코딩 SWE-bench Verified 74.9%, Aider polyglot 88%. 프론트엔드 생성에서 o3 대비 70% 선호(내부 테스트). 에이전틱 태스크 최신 툴사용 벤치 τ²-bench telecom 96.7%(두 달 전 공개된 난도 높은 시나리오).

주

주상원

Aug 10, 2025 1:05 PM

[250728]Google Deepmind Gemini Deep Think, Gemini 2.5, Runway Aleph, Higgsfield steal1, Memories.ai LVMM, Google Labs – Opal

Google DeepMind – Gemini Deep Think, IMO 금메달 달성 금메달 기준 35 점 획득 IMO 2025 문제 6개 중 5개 완전 해결, 총 35/42점 기록 IMO 위원장 Gregor Dolinar가 결과 검증 · 인증 벤치마크 이상의 ‘실전’ 증명 일반 수학 데이터세트가 아닌, 공개 직후 문제 해결로 데이터 누수 논란 차단 Olympic-level reasoning → 금융·과학 시뮬레이션 등 고부가 vertical로 확장 기대 Deep Think 스택 Tool former+Tree-of-Thoughts hybrid 파이프라인, 자가 오류 분석 루프 3단계 적용 prompt engineering 중요성 재부각 → 솔루션/컨설팅 시장 기회 경쟁 지형도 同기간 OpenAI 모델도 금메달권 성능 공표, 인재 유치전 가속화 Meta는 구글 출신 연구자 3인 전격 영입 → 폐쇄 모델 경쟁 심화 Google Gemini 2.5 – 대화형 이미지 분할 픽셀 단위 ‘자연어 분할’ “가장 시든 꽃만 찾아”, “청소 필요한 곳” 등 추상 지시도 인식 다국어 입력·텍스트 OCR 함께 처리 멀티모달 스택 업데이트 Vision-Transformer + Text Fusion으로 open-vocabulary 세그멘테이션 구현 이미지-to-SVG 변환 성능도 1.5 → 2.5에서 대폭 개선

주

주상원

Jul 28, 2025 12:51 AM

[20250721] OpenAI ChatGPT Agent, Anthropic Claude Connector Directory, MoonshotAI Kimi K2

OpenAI, ChatGPT Agent 정식 출시 출시 배경 & 아키텍처 7 월 17 일 발표된 ‘ChatGPT Agent’는 기존 Operator(웹 RPA)·Deep Research(장문 분석)를 GPT-4o 기반 단일 엔진으로 합친 통합 에이전트 스택. 모든 작업은 가상 macOS 데스크톱(시각 브라우저·텍스트 브라우저·터미널·API 호출기)에서 실행되며, 세션·쿠키·파일을 자체 컨텍스트에 보존해 멀티도구 간 상태를 유지함 에이전트 모드 UI · 워크플로우 채팅창 Tool 드롭다운에서 Agent mode 전환 → 프롬프트 입력 → 화면 우측에 실시간 내비게이터가 클릭·타이핑·스크롤 과정을 스트리밍. 사용자는 언제든 Take over browser 버튼으로 수동 전환·중단·재지시 가능; 완료 시 모바일 알림 또는 요약 리포트 전달. 멀티스텝 업무 자동화 사례 (업무) 경쟁사 3곳 분석 → 터미널로 파이썬 스크립트 실행 → 슬라이드 deck 생성: 내부 벤치마크 SpreadsheetBench에서 Excel Copilot 대비 2.3 배 정확도 기록. (개인) “다음 주 금요일 6 시 2인 코스 $100 이하 레스토랑 예약 + 새 바지·셔츠 주문 + 배우자 선물 $200 이하 구매” 같은 장문 요청도 한 번에 처리하며, 결제 직전 승인 대기 상태로 멈춘다(현장 테스트). (지속) Tasks 기능과 연결하면 “매일 오후 3 시 최신 AI 뉴스 요약” 같은 예약형 작업을 주·월 단위로 반복 실행. 외부 앱·API 연결(Connectors & Tasks) OAuth 기반 Connectors: Gmail, Google Drive, GitHub, SharePoint, Dropbox, HubSpot, Linear 등 12 종(7 월 기준). Agent가 리포지토리·메일·문서 검색 후 인용·분석. Auth0·WorkOS 등 SSO 브로커 예제(오픈소스)로 자체 SaaS도 쉽게 붙일 수 있어, 맞춤 업무 파이프라인 구축 비용↓. 안전·거버넌스 프레임워크 고위험 행위(결제·이메일 발송·SSH 접속 등) 전 Explicit User Confirmation 필수, 일부 작업은 Watch Mode로 실시간 감독 요구. 웹 Prompt Injection 대비 전용 탐지 모델·도메인 블록리스트, 생화학 듀얼유스 정보는 Refusal Training으로 사전 차단. Bio-Chem 분야는 OpenAI ‘High Capability’ 레벨로 규제 적용. 과금·출시 범위 & 로드맵 Plus·Pro·Team 사용자는 즉시 사용(Plus/Team 월 40 msg, Pro 월 400 msg 포함), Enterprise·Edu는 8 월 내 배포 예정. 초과 시 크레딧팩(1 k message ≈ $5) 구매. 기존 Operator 웹앱은 3 주 후 서비스 종료, Agent로 완전 통합. 올 하반기에는 “자동 승인 레벨” 조정, 다중 에이전트 병렬 실행, 온프레미스 브라우저 옵션이 예고됐다.

주

주상원

Jul 20, 2025 8:14 PM

[240714] Perplexity Comet, xAI Grok4, MS, OpenAI AI Browser, Genspark

Perplexity, ‘Comet’ 브라우저 & Max 플랜 Comet 정식 런칭 크롬 기반 포크에 AI 어시스턴트·오토메이션 내장 음성 입력·실시간 페이지 요약·자동 가격비교 등 ‘탭 최소화’ UX 강조 에이전트 기능 화면 컨텍스트 추적→메일 체크·SNS 포스팅 등 대행 향후 예약·결제 액션까지 확장 계획 Max 플랜(월 $200) Labs 무제한·신기능 선접근·고급 모델 옵션 제공 Comet도 초기엔 Max 구독자 독점 Coinbase 제휴 COIN50 지수·실시간 암호화폐 시세를 브라우저 내 제공 트레이더용 ‘AI-Crypto 탭’으로 수익화 채널 다각화 경쟁 지형 OpenAI·Arc·Opera AI와 ‘AI-네이티브 브라우저’ 3파전 브라우저-OS 경계 붕괴→에이전트·플러그인 스타트업 협력 기회 확대 xAI, Grok 4 공식 출시 출시·라이브스트림

주

주상원

Jul 13, 2025 11:40 PM

Amazon Deepfleet, OpenAIxOracle Stargate, Meta MSL, Grammarly Superhuman, Cerebrium

Amazon DeepFleet 발표 웨어하우스 로봇 100 만 대 돌파 2012 년 Kiva Systems 인수 이후 13 년 만에 누적 1 백만 대 로봇을 생산·배치해 ‘로봇 플릿’ 규모가 인력(약 150 만 명)에 근접. 전 세계 300 여 개 물류 거점 중 75 %가 로봇 지원으로 운영 → 아마존 배송의 75 %가 로봇과 협업해 처리됨. Proteus·Hercules·Titan 등 9종 플랫폼을 포함, ‘휴먼-패리티’(로봇 대 인력 1 : 1) 달성 목표 공식화. 로봇 운영 사이트는 비(非)로봇 사이트 대비 사고율 15 %↓, 근무 공백 18 %↓로 안전 지표도 개선. 생성형 AI ‘DeepFleet’ 주요 기능 Fulfillment 센터 내 모든 주행 로봇의 경로를 실시간 ‘교통망’처럼 조율하는 FM(Foundation Model)로, 즉시 이동 속도 10 % 향상. 내부 재고·이동 로그 수십 억 건으로 사전학습, 혼잡 구간 예측·우회로 생성으로 체증 감소 및 피킹 대기 시간 단축. 초거대 시뮬레이션에서 다중 로봇 ↔ 공간 상호작용을 생성해 ‘보지 못한’ 레이아웃도 즉시 최적화(일종의 자체 데이터 증강). 지속학습 – 자동 재훈련 루프 덕분에 신형 로봇·신규 레이아웃 추가 시 코드 수정 없이 적용. 에이전트 간 경쟁·협력 보상을 주는 강화학습(RL) 기법으로 세밀한 회피·합류 행동을 학습(AWS RL 레퍼런스 활용). Deepfleet에 차세대 로봇 ‘Vulcan’ 연동 듀얼-암(비전 + 흡착) 구조에 3D 포스 센서 탑재, 75 %의 카탈로그 품목을 인간 수준 정밀도로 피킹·적재. DeepFleet은 Vulcan의 위치·하중 데이터를 실시간 수집해 통행 우선권·속도 한계치를 동적으로 조정. 2025 Q3 피닉스·스포캔 등 5개 FC 베타 적용 후 ’26 년 20 개 센터까지 확대 계획. ‘물리 AI’ 계열 연구 논문 공개 → 타 물류 로봇 제조사와도 공용 인터페이스를 검토 중. https://youtu.be/2X4CU3jmw-g?si=UzYfy8cCoWHWIX37 로봇화 덕분에 주문 한 건당 처리비용(COGS) 최대 40 % 절감(WSJ 추정치). OpenAI × Oracle ‘Stargate’ 확장 4.5 GW ‘기가-캠퍼스’ 전력 임차 Oracle이 텍사스 애빌린(기존 1.2 GW → 2 GW) 등 다수 주(루이지애나·네바다 후보)에서 초대형 데이터센터를 신규·증설, 총 4.5 GW 용량을 OpenAI에 장기 임대하기로 합의.

주

주상원

Jul 7, 2025 12:25 AM

[20250630] Claude Artifacts, OpenAI Connector, Recode Mode, ElevenLabs eleven.ai, Deepmind AlphaGenome, Gemini CLI

목차 Anthropic · Claude Artifacts: ‘코딩-없는’ AI 앱 제작·배포 기능 전면 공개 OpenAI ChatGPT Business Stack: 드라이브·드롭박스 연결 + 데스크톱 Record Mode 출시 ElevenLabs eleven.ai: MCP(모델 컨텍스트 프로토콜)로 음성 비서의 업무 자동화 가속 Google Gemini CLI: 100만 토큰 컨텍스트로 터미널 안에서 작동하는 오픈소스 AI 에이전트 Anthropic | Claude Artifacts – AI-Powered App Studio 런칭 개요 Claude 대화창 옆 ‘Artifacts’ 탭에서 코드·UI·로직이 포함된 미니 앱을 즉시 생성·호스팅 · 공유 가능 비용 구조 앱 이용 시 호출량은 사용자 개인 구독으로 과금, 제작자는 추가 요금 없음 핵심 기능 실시간 코드 수정·디버깅, 링크-한번으로 퍼블리시, 포크 기반 협업 지원 초기 활용 사례 AI 게임, 개인화 튜터, CSV 분석 대시보드 등 커뮤니티 샘플 다수 등장 https://youtu.be/PU5P8PaeiYM OpenAI | ChatGPT Connectors & Record Mode Connectors 출시 Google Drive·SharePoint·Dropbox·Box 문서를 실시간 검색·인용 가능(Beta)

주

주상원

Jun 29, 2025 6:42 PM

Made with Slashpage