Sign In

Weekly-ai

한주간의 AI 소식을 전달합니다.
Flux One kontext (Black Forest Labs) 독일의 AI 연구소인 Black Forest Labs에서 개발한 최신 이미지 생성 및 편집 도구 텍스트와 이미지를 동시에 입력받아, 사용자가 원하는 대로 이미지를 생성하거나 수정. 예를 들어, 기존의 사진에서 특정 인물의 표정이나 배경을 변경하거나, 새로운 스타일을 적용하는 등의 작업이 가능
Flux One kontext (Black Forest Labs) 독일의 AI 연구소인 Black Forest Labs에서 개발한 최신 이미지 생성 및 편집 도구 텍스트와 이미지를 동시에 입력받아, 사용자가 원하는 대로 이미지를 생성하거나 수정. 예를 들어, 기존의 사진에서 특정 인물의 표정이나 배경을 변경하거나, 새로운 스타일을 적용하는 등의 작업이 가능. 컨셉 : “Stable Diffusion급 리얼리즘 + GPT-Image급 편집 자유도” 핵심 기능 문맥 기반 생성: 텍스트와 이미지 둘 다를 기반으로 새로운 이미지를 생성 로컬 편집: 이미지의 특정 요소만 수정 가능 (예: 얼굴에 있는 물건 제거) 스타일 유지: 참조 이미지의 스타일을 유지한 채 새로운 장면 생성 캐릭터 일관성: 인물/사물의 정체성과 특징을 여러 장면에서 유지 고속 처리: 기존 모델 대비 최대 8배 빠른 추론 속도 단계별 편집 지원 하나의 이미지에 대해 여러 단계에 걸쳐 텍스트로 수정 가능 각 수정 단계마다 품질과 캐릭터 일관성을 유지하며 이미지 업데이트 모델 종류 FLUX.1 Kontext [pro] 텍스트 기반 생성, 이미지 기반 편집, 로컬 수정 모두 지원 빠른 속도로 반복 편집 가능 FLUX.1 Kontext [max] 프롬프트 해석력과 타이포그래피 생성 능력 향상 높은 일관성과 속도 유지
  • 주상원
[250526] Google I/O 2025, MS Build, OpenAI Device, Shopify AI Store Builder
Google I/O 2025 분류 주요 발표 디테일 & 실전 영향 ① Veo 3 (텍스트→영상) 최대 1080p·30fps·90초 - 대사·SFX·BGM 동시 합성(페르소나·감정 조절 가능).<br>· 연속 프롬프트—대본 입력→장면별 자동 컷 편집. 영상편집 초보 → 틱톡·릴스 제작까지 원-클릭 Ultra 요금제(월 250, 50% 할인 중) : 일 5 회 제한 ② Flow(베타) 타임라인 기반 ‘AI 프리미어’.Extend·Jump-to·오브젝트 삭제/삽입. V2/Veo3 혼합 가능, 장면 Extend·Jump-to·오브젝트 삭제/삽입. 스토리보드→러프컷→파이널까지 한 곳에서. 프롬프트형 파이널컷. ③ V2 업그레이드 카메라 컨트롤 (Pan, Tilt, Dolly, Zoom). Out-painting : 해상도·화각 확대 레퍼런스 이미지 두 장 → 스타일·배경 결합. “B-롤 + 카메라워크” 를 한 문장으로. ④ Imagine 4 (이미지) 텍스트 렌더링 정확도 ↑, 사진/만화 품질 ↑. “8-페이지 풀컬러 만화” 1 프롬프트 완성. 썸네일·만화·포스터 제작 속도 폭발.
  • 주상원
Google DeepMind Alpha Evolve, Absolute Zero, AI 광고, ChatGPT, 개발자도구
Google DeepMind ‘Alpha Evolve’ 공개: 자가 진화형 AI 등장 Alpha Evolve는 코드 문제를 스스로 생성·검증·개선하는 자가 학습형 AI. Gemini Flash는 아이디어를 광범위하게 생성, Gemini Pro는 그중 우수안을 정제. 1969년 이후 갱신되지 않은 복소수 행렬 곱셈 알고리즘을 개선한 사례도 등장. 활용사례 데이터센터 스케줄링 Google의 Borg 시스템에서 효율적인 스케줄링 알고리즘을 제안 전 세계 컴퓨팅 자원의 0.7% 회수 효과 발생 (1년 이상 운영 중) 하드웨어 설계 보조 행렬 곱셈을 위한 회로 최적화를 Verilog 코드 수준에서 제안 향후 TPU에 적용 예정 → AI와 하드웨어 엔지니어 협업 강화 AI 모델 학습 속도 향상 Gemini 모델의 핵심 연산을 23% 속도 개선 전체 학습 시간 1% 단축, 수백만 달러 규모의 리소스 절감 FlashAttention 커널에서 최대 32.5% 속도 향상 'Absolute Zero': 데이터 없이 학습하는 자가학습 모델 칭화대, 북경AI연구소, 펜실베이니아 주립대 공동 논문 발표. 외부 데이터 없이 AI가 스스로 학습 과제를 생성하고 해결하는 자기주도형 학습 방식입니다.. 기존의 강화학습은 고품질 데이터셋에 의존했다면, AZR은 코드 실행기를 통해 학습과 보상 루프를 자체 생성 AGI 수준은 아니며, 비즈니스/일상적 추론 영역에는 한계 있음.
  • 주상원
[250512] OpenAI Model Guide, HeyGen Avatar 4, Neflix AI Search
OpenAI 모델 가이드 발표 OpenAI, 사용자들이 다양한 GPT 모델 중 어떤 것을 어떤 상황에 써야 할지 혼란스러워함을 인식함. 이에 각 모델의 특성과 용도를 정리한 가이드 공개함. 문서명은 엔터프라이즈용이지만 일반 사용자에게도 적용 가능. 각 모델의 성능, 응답 스타일, 추천 사용 예시 등을 구체적으로 설명함. 예: GPT-4.5는 감성 표현과 창의적 글쓰기에 탁월함. 공감이 중요한 고객 대응 메일이나 마케팅 콘텐츠에 적합함. GPT-4 Mini High는 수학 계산이나 프로그래밍에서 높은 정확도 제공함. https://cookbook.openai.com/examples/partners/model_selection_guide/model_selection_guide HeyGen Avatar 4 – 한 장의 사진으로 실사 아바타 영상 생성 HeyGen Avatar 4, 한 장의 이미지와 스크립트 or 음성으로 실제 사람처럼 말하는 AI 아바타 영상 생성 가능함. 사진 업로드 후 사용자가 녹음한 음성 or 입력한 텍스트 기반으로 영상 생성. 음성의 톤, 리듬, 감정 등을 분석해 입 모양, 표정, 고개 움직임, 미세 표정까지 재현함. 단순 립싱크 수준을 넘는 자연스러운 결과물 가능. 개인 브랜딩, 유튜브 영상, 고객 응대 봇 등에 활용 가능함. NVIDIA 초고속 음성 텍스트 변환기 공개 NVIDIA, 1시간 분량 오디오를 단 1초 만에 텍스트로 바꾸는 음성 인식 모델 공개함. 현재 HuggingFace에서 무료로 체험 가능. Whisper 등 상용 음성 모델과 달리 오픈소스로 제공됨. 누구나 자유롭게 사용 가능. 오류율 6.05%로 정확도 우수. 팟캐스트, 회의, 강의 등 긴 오디오 문자화에 효율적임. 넷플릭스의 AI 기반 검색 및 쇼츠 피드 테스트 넷플릭스, “기분 좋은 로맨틱 코미디 보고 싶어” 식의 자연어 기반 생성형 AI 검색 기능을 iOS 사용자 대상으로 베타 제공 중.
  • 주상원
[250428] OpenAI Deep Research, Open-Weight LLM, Perplexity AI Agent for iOS, MS Recall
OpenAI, 무료 플랜에 Deep Research 기능 제공 ChatGPT 무료 사용자에게도 월 5회까지 Deep Research 기능 제공. Plus, Team, Pro 사용자는 기존 Deep Research 할당량 소진 시 '라이트 Deep Research'로 자동 전환. '라이트' 버전은 o4-mini 모델 기반으로, 응답이 짧아지고 비용이 절감되지만 정보의 깊이는 유지. Plus는 월 10회, Team은 월 15회, Pro는 월 125회 Deep Research 기본 제공. OpenAI, 완전 개방형 모델 출시 계획 6월경 무료로 다운로드 가능한 오픈 모델(Open-weight LLM) 출시 예정. 로컬 컴퓨터에서 인터넷 연결 없이 실행 가능, 데이터 프라이버시 확보. Meta Llama 4 이상의 성능 목표. 복잡한 쿼리는 API를 통해 GPT-4o 같은 클라우드 모델에 자동 핸드오프 가능성 있음. Perplexity AI, Siri를 능가하는 아이폰용 AI 어시스턴트 출시 iOS용 Perplexity 앱에 'Perplexity Assistant' 기능 추가. 이메일 작성, 미팅 예약 변경, 팟캐스트 재생, 일정 관리 등 실생활 지원 기능 강화. Siri 대비 실제 활용성 및 실용성이 뛰어나다는 평가. 일부 기능은 아직 베타 단계라 완성도가 완벽하지 않음. https://youtu.be/MuLXoeK-AY8 마이크로소프트, 365 Copilot에 새로운 에이전트 기능 추가 Microsoft 365 Copilot에 'Agent Store' 오픈 예정. 분석(Analyst), 리서치(Research) 전용 AI 에이전트 추가. 사용자는 원하는 에이전트를 선택해 설치 가능, 외부 툴(Jira, Dropbox, Trello 등)과 연동 가능. 데이터 기반 자동 차트 생성, 문서 작성 등 업무 생산성 향상 기대. https://youtu.be/5xj5BQUKQas?si=ukeEHEQOhbSOX1n8
  • 주상원
[250412]OpenAI GPT-4.1, Coding AI, Gemini 1.5 Flash, Antropic Claude Research
OpenAI 신규 모델 출시 및 변경사항 GPT-4, GPT-4.5 모델 서비스 종료 (4월 30일부터) ChatGPT에서는 4월 30일부터 GPT-4가 GPT-4o로 대체 GPT-4는 OpenAI API를 통해 계속 제공 최근 출시된 4.5도 함께 중단 결정GPT-4.5는 고비용 대비 성능 향상이 제한적이라는 평가로 인해 API에서의 지원이 중단될 예정 새로운 GPT-4.1 시리즈 공개 (API 전용) 버전: 4.1, 4.1 mini, 4.1 nano GPT-4.1 mini는 GPT-4o 대비 83% 저렴하며, 지연 시간도 절반 수준 (4.5 대비 약 40배 저렴) 100만 토큰 컨텍스트 (약 75만 단어) : 코디엄(Windsurf)이 실시한 200개의 PR Benchmark에서 54% vs 45.1%로 Claude 3.7 sonnet을 이겼으며, 코드 제안 task에서도 6.81/10으로 sonnet(6.66/10)보다 높은 성능을 나타냄 (100만 토큰 당 $) 모델 입력 출력 GPT-4.1 2 8 GPT-4o 3.75
  • 주상원
[250414]Meta Llama4 Benchmark issue, MS Copilot Update, Google A2A
Meta의 Llama 4 벤치마크 이슈 라마 4 모델군: Scout, Maverick, Behemoth Scout: 최대 10백만 토큰(약 7.5백만 단어) 컨텍스트 윈도우로 현존 최장 수준 Maverick: 파라미터는 더 많지만 컨텍스트 윈도우는 1백만 토큰 Behemoth(예정): 2조 파라미터로 추정, 출시 시점 불확실 LM Arena 벤치마크 논란: 메타가 제출한 실험용 모델이 일반에 공개되지 않은 최적화 버전으로 평가받아, 초기에는 높은 순위를 기록했으나 실제 공개 버전이 다시 테스트되면서 순위가 급락. 새 평가 방식 도입: LM Arena 측은 이번 사건을 계기로 평가 정책을 수정하고, “Llama-4-Maverick-17B-128E-Instruct”라는 공개 버전 기준으로 재평가를 진행. 공개 버전의 실제 성능: 재평가 결과, Llama 4 Maverick은 기존의 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 등과 견줄 때 낮은 순위를 기록. 내부고발자 “벤치마크 데이터로 모델 훈련” 폭로 → Meta 공식 부인 MS Copilot Update 메모리(Memory) 기능 확장 사용자 취향·경험 학습 반려동물 이름, 직장에서의 까다로운 프로젝트, 운동 루틴 등 세부정보 장기 보관 개인화된 제안, 알림, 선제적 대응 등 실질적 AI 비서 역할 강화 보안·개인정보 보호 대시보드 통해 사용자가 저장 정보 유형이나 기능 On/Off 결정 가능 “메모리는 진정한 AI 동반자의 핵심” (MS 공식 블로그), 개인정보 설정 중요성 강조 https://youtu.be/H54C6MVyk5U 작업 대행 ‘액션(Actions)’ 기능
  • 주상원
[250407] OpenAI 투자유치, Llama 4 공개, Google Gemini 2.5 무료화, Amazon Nova Act, AI Coding(IDE)
OpenAI: 대규모 투자 유치 & 신규 오픈소스 모델 발표 SoftBank 주도 400억 달러(58조원) 투자 기업 가치 3,000억 달러(440조원) 규모로 평가, 데이터센터·GPU 확충에 집중 투자 예정 CNBC에 따르면, 소프트뱅크는 오픈AI의 영리 기업 전환을 조건으로 투자에 참여했으며, 25년 연말까지 영리형태로 전환하지 않을 경우, 최대 100억 달러(약 14조원)의 투자금이 삭감될 수 있는 조건이 설정됐음 WSJ에 따르면 microsoft 컨소시엄이 10억 달러 규모로 추가 투자 검토 중 OpenAI는 흑자전환시점을 2029년으로 예상 중 오픈소스 언어 모델 & OpenAI Academy GPT2 이후 첫 오픈 모델 준비, 개발자·연구자와 사전 협의 통해 최적화 academy.openai.com에서 AI 교육자료(노인 대상 AI, RAG 기반 그래프 등) 온라인 강의 제공 Llama 4 공개(Scout, Maverick) 모델 특징 17B Base 모델에 MoE 적용 총 3가지 모델 공개(Behemoth는 추후 공개예정) 기술적 핵심요소 MoE 아키텍처 (Mixture of Experts) 일부 전문가만 활성화해 연산 효율화 Native 멀티모달 & Early Fusion 텍스트와 이미지 데이터를 초기부터 통합 학습 이미지 최대 48장 입력 가능 iRoPE 기반 초장문 문맥 처리 10M 토큰, '무한 문맥' 가능성
  • 주상원
[250324] GPT-4.0 Audio API Update, Claude Web Search, NVIDIA GTC, TX-Gemma, Adobe AI Agents, xAI Hotshot M&A
OpenAI, Whisper를 넘어서는 차세대 음성 인식 모델 (STT, TTS) 배경 OpenAI는 Whisper는 오픈소스로 공개되어 대중적 지지를 받았지만, 속도와 일부 언어에서의 정확도 측면에서 한계가 있었음 GPT-4.0 및 Mini는 OpenAI가 내부적으로 연구·개발한 차세대 음성 인식 모델로, Whisper를 대체할 만한 ‘상위 버전’ 주요 기능/특징 정확도(Accuracy) 영어 기준으로 Whisper 대비 오류율이 눈에 띄게 낮아짐. 억양이 복잡하거나 주변 소음이 많은 환경에서도 인식 성능이 개선. 처리 속도(Throughput) Whisper보다 최대 2배 이상 빠른 처리 속도를 제공한다고 발표. 실시간 스트리밍 환경(예: 컨퍼런스, 라이브 방송)에서도 유용. Voice Cancellation & Activity Detection Voice Cancellation: 고음질 마이크가 아닌 상황에서도 배경 소음을 줄여주는 기능. Voice Activity Detection: 사람이 실제로 말하는 구간만 정확히 인식하여 불필요한 공백을 줄임. 가격 경쟁력 분당 0.5~0.6센트 수준으로, 업계 최저 수준. (Whisper 대비 경쟁력 확보) 시장 반응 기업용 콜센터, 온라인 세미나 플랫폼, 대규모 컨퍼런스 운영사 등이 이미 테스트를 진행 중인 것으로 알려짐. 기존에 Whisper를 사용하던 개발자 커뮤니티도 전환을 고려할 만큼 매력적이라는 평가가 다수. 활용사례 콜센터 자동화: 상담원의 음성을 실시간으로 텍스트화하여 고객 이슈를 분석하고 FAQ 연동.
  • 주상원
[250317] Manus AI, Google Gemma 3, OpenAI Responses API, AI Coding
Manus AI 개요 최근 공개된 차세대 AI 멀티 에이전트 협업시스템으로 Sonnet 3.5를 기반으로 만들어짐 사용자의 요청을 받아 자동으로 다양한 작업을 수행할 수 있는 기능을 제공 AI가 단순한 챗봇을 넘어 실제 업무를 수행하는 단계로 발전하는 중요한 사례로 평가됨 웹 브라우저를 직접 조작해 정보 검색, 데이터 분석, 문서 정리 등의 복잡한 태스크를 자동화할 수 있음 Manus AI의 주요 기능과 데모 사례 이력서 분석 (Resume Screening) 다수의 이력서를 압축 파일로 업로드하면, AI가 이를 개별적으로 분석하여 평가 점수를 부여하고, 정리된 보고서를 제공 부동산 조사 (Property Research) 사용자가 원하는 조건(예: 뉴욕, 안전한 지역, 낮은 범죄율)의 부동산을 자동으로 검색하여 최적의 추천 목록을 제공 주식 분석 (Stock Analysis) 특정 기업의 주가 및 시장 데이터를 조사하고, 투자 전망을 분석하는 기능 수행 커뮤니티에서의 활용 사례 AI를 활용한 SEO 감사 (Website SEO Audit) : 특정 웹사이트를 분석하고, SEO 최적화를 위한 개선점과 실행 전략을 제공 자동 게임 생성 : Three.js를 활용한 간단한 게임을 단 하나의 프롬프트 입력만으로 완성 기타 Manus AI는 Claude Sonnet을 포함한 29개 이상의 도구를 통합하여 실행됨 과부하 문제: 높은 사용량으로 인해 시스템이 가끔 중단되거나 지연되는 문제 발생 AI의 한계: 완전한 자율적 사고보다는 사전 설정된 도구들의 조합을 활용하여 자동화하는 수준 하지만, 현재까지 공개된 AI 에이전트 중 가장 실용적이며 상용화 가능성이 높은 모델로 평가됨
  • 주상원
[250311] OpenAI AI Agent, AI Search(google, DuckDuckGo), AI음성, Opera AI 브라우저, Claude 3.7
OpenAI, 월 2만 달러 AI 에이전트 출시 예정 고급 AI 에이전트 서비스 계획 OpenAI가 월 $2,000에서 $20,000에 이르는 AI 에이전트 서비스 출시를 준비 중. 고급 연구 및 소프트웨어 개발 지원이 가능한 자동화된 AI 에이전트를 제공할 예정. 세 가지 주요 AI 에이전트 유형 기본형 ($2,000/월): 고소득 지식 노동자를 위한 연구 지원 AI. 중급형 ($10,000/월): 소프트웨어 개발 업무를 자동화하는 AI. 고급형 ($20,000/월): 박사 수준의 연구를 수행할 수 있는 AI. AI 대 인간 비교 논란 "월 10,000달러면 인간 소프트웨어 개발자를 고용할 수도 있다"는 의견도 제기. AI 에이전트의 생산성 및 경제성이 주요 논쟁점이 될 전망. Google 및 DuckDuckGo, AI 검색 기능 강화 Google의 AI 검색 모드(AI Overview) 웹 검색 결과를 기반으로 AI가 답변을 생성하는 검색 모드 테스트 중. Perplexity 및 OpenAI의 검색 기능과 유사한 방식. Google One Premium(월 $20) 가입자에게 우선 제공될 가능성. DuckDuckGo의 AI 검색 확장 AI 챗봇 서비스 duck.ai 공개 → GPT-4, Llama 3, Claude 등을 선택 가능. 기존 검색 엔진에도 AI 요약 기능 추가. AI 기반 음성 및 영상 생성 기술 급성장
  • 주상원
[250304] Claude 3.7, OpenAI GPT-4.5, Perplexity Comet, MS WHAM, Amazon Alexa Plus
Anthropic의 Claude Sonnet 3.7: 차세대 AI 모델의 등장 하이브리드 추론 기능 도입 Claude Sonnet 3.7은 빠른 응답과 깊이 있는 사고를 병행하는 하이브리드 추론(Hybrid Reasoning) 기능을 탑재. 복잡한 문제 해결 시 심층 분석이 가능하면서도, 간단한 질문에는 즉각적인 답변 제공. 업계 최고 수준의 성능 지표 MMLU 벤치마크(대학 수준 종합 평가)에서 84.8% 기록, OpenAI의 최신 모델 GPT-4.5(79.7%)보다 높은 점수 획득. Claude 3.5 Sonnet, OpenAI, DeepSeek, Grok 3 Beta를 다수의 항목에서 앞섬. 강력한 개발자 지원 기능 대규모 컨텍스트 윈도우 지원 → 긴 문서 이해 및 분석이 뛰어남. API 제공을 통해 다양한 서비스 및 애플리케이션에 통합 가능. 고급 코딩 및 디버깅 지원 → 복잡한 소프트웨어 개발 작업을 보조. Pricing 100만 토큰 기준 claude 3.7 : 입력 3달러, 출력 15달러 o3-미니 : 입력 1.10달러, 출력 4.40달러 딥시크-R1 : 입력 55센트, 출력 2.19달러 OpenAI GPT-4.5 공식 출시: 성능 개선 및 새로운 사용자 경험 제공 더욱 정교한 콘텐츠 생성 GPT-4.5는 이전 모델보다 더 간결하고 요점 중심적인 응답을 제공.
  • 주상원
[250216]OpenAI 로드맵, Adobe Firefly, Anthropic Hybrid AI Model, Perplexity update,
OpenAI 로드맵과 제품 업데이트 모델 통합 및 사용자 경험 개선: 기존의 여러 모델(예: GPT-4, GPT-3 등) 선택 옵션이 너무 복잡하다는 문제 인식. “마법 같은 통합 인텔리전스”라는 목표 아래, 사용자가 프롬프트만 입력하면 내부적으로 최적의 모델을 선택하여 응답하는 시스템 구축 계획. 신규 모델 출시 계획: 내부적으로는 GPT-4.5(코드명 Orion)로 불리는 모델이 곧 출시될 예정이며, 이는 최종 비체인 오브 씽킹(non-chain-of-thought) 모델로 알려짐. 이후 GPT-5부터는 테스트타임 컴퓨트(test-time compute) 방식을 도입하여, 프롬프트 입력 시 실시간으로 “생각”하는 과정을 반영할 예정. 서비스 등급에 따른 차별화: 무료 사용자에게는 GPT-5 제공. 구독자와 프로 사용자에게는 더 높은 수준의 인텔리전스 옵션을 제공하여, 사용 목적에 맞는 맞춤형 서비스 제공. 기능 및 사용성 업데이트: 프로 사용자 대상 딥 리서치(Deep Research) 기능이 모바일(iOS, Android)과 데스크탑(Mac, Windows) 모두에서 활성화됨. OpenAI 01과 03 mini 버전에 파일 및 이미지 업로드 기능 추가되어, PDF나 이미지 자료에 대해 질문하고 분석할 수 있음. Plus 사용자를 위해 03 mini high의 일일 사용량 제한이 7배 상향되어 최대 50회 사용 가능. 오픈 소스 관련 발언: 최근 샘 알트만은 오픈 소스에 대한 논의도 진행하며, 앞으로 일부 모델 또는 기술을 오픈 소스 방식으로 공개할 가능성을 시사함. 이는 머스크가 주장하는 “원래의 개방적 목표”와 일맥상통하는 부분으로, 향후 OpenAI의 전략 방향에 관심이 집중됨. Adobe Firefly – AI 기반 비디오 생성 도구 핵심 기능 및 특징:
  • 주상원
[20250210] OpenAI o3-mini, Deep Research, Cursor $100M ARR
OpenAI, o3-mini 비용 효율적인 최신 reasoning 모델로, 고급 수학 및 코딩 문제에서 뛰어난 성능을 발휘함. 함수 호출(Function Calling), 구조화된 출력(Structured Outputs), 개발자 메시지 지원 등 다양한 기능을 지원하여 유연성을 높임. 세 가지 reasoning effort 제공: Low, Medium, High, 이를 통해 사용자는 응답 속도와 정확성 간의 균형을 조절 가능. Low Reasoning Effort: 빠른 응답이 필요한 경우 적합 (예: 단순 요약, 기본적인 코드 생성). Medium Reasoning Effort (기본값): 속도와 정확성의 균형을 유지하며, 일반적인 AI 활용에 적합 (예: 중간 난이도의 수학 문제 해결, 논리적인 질문 응답). High Reasoning Effort: 복잡한 문제 해결을 위해 더 깊이 있는 추론 수행 (예: 고급 알고리즘 문제 해결, 과학적 분석, 논리적 사고 요구). 스트리밍 지원 (단, 비전(이미지) 기능 없음), 따라서 시각적 이해가 필요한 작업에서는 OpenAI o1 모델 사용 권장. ChatGPT 및 API(Chat Completions, Assistants, Batch API)에서 사용 가능하여 다양한 개발 환경에서 활용 가능. Plus 및 Team 사용자의 메시지 제한이 기존 o1-mini의 50개에서 150개로 증가, 이를 통해 더 많은 쿼리를 실행할 수 있음. 검색 기능 추가(웹 링크 제공)로 최신 정보를 더욱 정확하게 제공할 수 있음. 무료 사용자도 'Reason' 모드 선택을 통해 사용 가능, 이는 OpenAI reasoning 모델 중 처음으로 무료 사용자에게 제공됨. OpenAI, Deep Research 인터넷에서 방대한 정보를 수집·분석·종합해, 복잡한 과제를 수십 분 안에 자동으로 해결해주는 역할을 수행 Deep research는 5분에서 최장 30분 동안 인터넷을 탐색해 세부적인 보고서를 작성함 작업 진행 중에는 단계별 요약과 참조 출처가 표시되는 사이드바를 통해 과정을 확인 가능 최종 결과물은 광범위한 인용과 함께 보고서 형태로 제공되며, 향후 이미지·데이터 시각화 등도 포함될 예정 동작원리 OpenAI o1의 추론 능력을 확장한, 다음 세대 모델(OpenAI o3 기반)을 활용해 복잡한 브라우징과 분석 작업에 대응
  • 주상원
👍
1
[20250202] DeepSeek
DeepSeek 중국 항저우 인공지능 회사. DeepSeek-V3 등 MoE 모델들 출시. V3의 경우 타 회사 대비 API 비용이 10배 이상 쌈. V3모델에 강화학습(feat. GRPO) 방식을 적용한 것이 R1 감춰져있던 OpenAI-o1은 어떻게 만들까?에 대한 방법론 제시. 답은 SFT->RL->SFT->RL 오해 전체 비용이 80억 아님 V3를 한번 학습하는데 드는 비용이 80억임. 보통 모델을 학습하는 과정은 여러 파라미터를 조정하면서 여러번 시도하기 때문에 학습과정에서 더 많은 비용이 들어갔을 것으로 추정됨. V3를 학습하는데 들어간 비용이 80억이고, R1에 CoT학습데이터를 대규모로 넣어서 강화학습을 진행했기 때문에 더 많은 비용이 들어갔을 것으로 예상됨 저사양 GPU에서만 학습한 것은 아님 Deepseek의 모회사인 highflyer는 퀀트 기반의 헤지펀드로 이미 고성능 gpu를 많이 확보하고 있을 것이라는 의견이 지배적(A100과 H100 모두 1만장씩 보유하고 있을 것이라는 의견도 존재) 연산량 최적화로 OpenAI대비 낮은 가격으로 API 제공가능 inference 과정에서 연산량을 줄이는 MLA 기법(아래 설명)이 사용되었으나, 이것만으로 훨씬 낮은 가격으로 제공할 수 있는 수준은 아님 OpenAI의 가격이 너무 비싼 수준이었거나, Deepseek가 데이터확보를 위해 원가이하의 가격으로 모델을 제공 중일 가능성이 있음 혁신적은 학습방법론을 제안한 것은 아님 MLA를 제외하고는 가설로 나와있거나 이미 적용되고 있는 기술이었음. 이걸 잘 조합한 하고 방법론을 공개한 부분은 충분히 의미가 있음 기여
  • 주상원
[250120] OpenAI Tasks, Google Titans, MS MatterGen, Sakana AI Transformer Square
OpenAI "Tasks" 공개 반복적인 작업을 설계할 수 있는 기능 공개 작업 내용과 반복주기를 명시하면 작업이 등록되며, 작업이 완료되면 앱푸시 혹은 이메일로 알림 현재 ChatGPT Web, iOS, Android, MacOS에서 서비스 지원 중 유저가 offline 상태에서 작업이 수행됨 최소 15분 주기로 반복작업 스케쥴링 가능 Google, 새로운 아키텍처 Titans 공개 기존 대형언어모델(LLM)의 한계를 극복하기 위해 '타이탄즈(Titans)' 발표. 인간 뇌의 기억 구조를 모방한 신경 장기 기억 모듈(neural long-term memory module) 도입. 타이탄즈의 핵심 기술 트랜스포머와 순환신경망(RNN) 융합: 각 기술의 강점을 결합해 긴 문맥 정보를 효율적으로 저장·활용. 3개 메모리 모듈: 단기 메모리: 현재 문맥 데이터를 처리. 장기 메모리: 과거 데이터를 학습·저장하며 필요 시 검색 가능. 지속 메모리: 특정 태스크 관련 사전지식 저장. 적응형 학습 및 망각 입력 데이터의 surprise 지표 기반으로 중요 데이터 강화 학습 및 불필요 데이터 제거. 성과 및 기대 긴 문맥(200만 토큰 이상)에서도 높은 정확도를 유지하며 기존 모델의 성능 저하 문제 극복.
  • 주상원
[241216] OpenAI Sora, Google Gemini 2.0 & Astra, Mariner, Meta Llama 3.3 70B
openAI, 텍스트-투-비디오 모델 'Sora' 출시 OpenAI는 텍스트 입력을 기반으로 영상을 생성하는 AI 모델 'Sora'를 공개. 이는 ChatGPT Plus 및 Pro 사용자들에게 제공되며, 다양한 기능과 제한 사항이 포함되어 있음. 주요 기능: 텍스트 프롬프트를 통해 최대 20초 길이의 1080p 해상도 영상을 생성할 수 있으며, 이미지 애니메이션, 비디오 리믹스 등 다양한 창작 도구를 제공 제한 사항: 유럽연합, 스위스, 영국에서는 법적 제한으로 인해 서비스가 제공되지 않으며, 사람의 모습을 사실적으로 묘사하는 기능은 오용 방지를 위해 제한. 가격 정책: ChatGPT Plus 구독자는 월 $20에 최대 50개의 우선 생성 영상을 이용할 수 있으며, ChatGPT Pro 구독자는 월 $200에 무제한 영상 생성을 지원하며, 워터마크 없는 다운로드가 가능 기술적 발전: 이전 버전 대비 속도와 신뢰성이 향상된 'Sora Turbo' 버전이 제공되며, 텍스트, 이미지, 비디오 입력을 받아 새로운 영상을 생성하는 멀티모달 기능을 갖추고 있음 윤리적 고려: 아동 학대 자료나 성적 딥페이크 등의 부적절한 콘텐츠 생성을 방지하기 위한 조치가 마련되어 있으며, AI로 생성된 영상에는 워터마크와 C2PA 메타데이터가 포함되어, AI 생성 여부를 명확히함. 구글, 차세대 AI 모델 'Gemini 2.0' 발표 구글은 자사의 AI 모델 Gemini의 두 번째 버전인 'Gemini 2.0'을 공개하며, 사용자들을 위한 고도화된 AI 에이전트를 공개 Nvidia가 아닌 자체 TPU v6로 학습한 모델 주요 기능: 이미지와 오디오를 처리할 수 있는 능력을 갖추었으며, 사용자의 요구를 예측하고 이에 따라 행동하는 가상 비서 기능을 강조 적용 분야: 구글 검색, 안드로이드, 유튜브 등 다양한 플랫폼에 통합되어 사용자 경험을 향상시키는 데 중점 프로젝트 Astra: 범용 AI Agent 프로젝트 실시간 대화와 혼합 언어 처리가 가능하며, 지도 정보와 이미지 인식을 통해 사용자에게 필요한 정보를 제공 https://youtu.be/Fs0t6SdODd8 프로젝트 Mariner : 복잡한 작업을 수행하는 에이전트 브라우저 화면의 정보를 이해하고 추론하며, 작업을 수행하는 에이전트 https://youtu.be/2XJqLPqHtyo 기타 혁신: 크롬 확장 프로그램을 통한 작업 자동화, 소프트웨어 코딩 보조 도구 'Jules', 비디오 게임을 위한 의사 결정 도구 등 다양한 AI 기반 솔루션을 개발 중. Meta, Llama 3.3 70B 모델 공개
  • 주상원
[241209] OpenAI, o1 Pro / ChatGPT Pro, o1 System Card
OpenAI, o1 Pro / 월 $200 ChatGPT Pro 요금제 출시 OpenAI가 o1 공식버전을 출시하였음. 공식버전에는 o1과 o1 Pro버전이 포함되어 있으며, 이 버전을 사용할 수 있는 월 $200 ChatGPT Pro 요금제도 함께 출시했음. o1 공식버전은 다양한 벤치마크에서 o1 preview 버전에 비해 좋은 성능을 보여주고 있음 특히 내부 테스트 결과 preview에 비해 중대한 오류의 비율이 34% 감소한 것으로 알려짐 o1 pro의 경우, 추론을 위해 더 많은 연산을 요구하기 때문에 시간이 오래걸리며 progress bar를 통해 진행률을 안내해줌 OpenAI, Chatgpt 2주년 interview 새라 프라이어 CFO 2025년의 키워드는 Agent가 될 것이며, 사람들의 일상을 돕는 매우 성공적인 에이전트가 처음으로 세상에 공개될 것 25년에도 지속적으로 투자를 유치할 계획(직전 라운드 1,570억 달러 가치로 66억달러 투자유치) 크리스 리한 정책책임자 미국 중서부/남서부 지역에 데이터센터 클러스터 구축할 계획. 오라클 및 카루소와 엔비디아 블랙웰 5만장을 투입하는 클러스터 구축 중 칩, 데이터, 에너지가 AI 경쟁에서 성공하는데 필요한 중요한 리소스 23년 말 대비 직원 수 3배 증가하여 현재 2,000여명이며, 새로운 팀 중 다수는 소비자 제품을 구축하고 수익화하는 것에 전문성을 갖고 있음. 지금까지 연구 중심적인 체제에서 벗어나 장기적인 관점의 연구와 단기적으로 소비자 및 기업에 제공할 제품을 제공할 준비를 하였음 https://www.cnbc.com/2024/12/03/openai-hires-first-marketing-chief-from-coinbase.html 올해 40억달러 이상의 적자가 예상되며, 내년에는 140억달러로 늘어갈 예정 OpenAI, o1 System Card 서론 o1 모델 시리즈는 chain of thought를 사용하는 대규모 강화학습을 통해 추론 능력을 훈련받음
  • 주상원
[241202] SuperWeight in LLM,
Apple, published "Super Weight in LLM" Apple에서 공개된 논문으로 LLM의 성능에 결정적인 영향을 미치는 '슈퍼 가중치(super weights)'라는 특정 파라미터가 존재하며, 이를 식별하는 방법에 대한 논문 이전에도 weight outlier라는 개념은 존재하였음. 이 weight outlier는 보통 0.01%정도로 적은 비중이지만 파라미터 수가 수십억개이기 때문에 수십만개의 outlier가 존재하였음 본 논문은 모델 성능에 아주 극적인 영향을 끼치는 극소수(대부분의 모델에서 3개이하)의 weight가 존재하며, 이를 찾는 방법을 제안함 Super Weight 하나만 제거해도 모델 성능이 극단적으로 저하됨. 예) 퍼플렉시티(perplexity) 1,000배 증가, 제로샷 정확도 추측 수준으로 감소. 따라서 Super Weight를 보존하면서 기존의 양자화기술을 사용할 경우, 정확도 손실을 최소화하면서 경량화할 수 있음 OpenAI, Sora 유출 OpenAI는 일부 예술가들을 대상으로 Sora에 대한 클로즈테스트를 진행해왔음 Sora PR 퍼펫이라는 예술가그룹이 Sora API를 공개하면서 일반인들도 기능을 사용할 수 있게 됐고, 갑자기 트래픽이 몰리자 서비스 접근을 중단시킴 API를 공개한 예술가 그룹은 OpenAI에 의해 무급노동을 하고 있다며 이번 유출사건의 이유를 밝힘 https://youtu.be/FI0wWpmraW0?si=Nc7Gam5xdCIhJLg2 ElevenLabs, GenFM PDF, article 등 다양한 텍스트 input을 넣으면 팟캐스트 형태로 생성해주는 서비스 공개 Elevenlabs Reader iOS앱에서 사용가능하며, 현재 32개 언어를 지원함 Google, NotebookLM에서도 동일한 기능을 제공하나, 훨씬 더 자연스러운 대화에 초점을 둔 서비스 https://youtube.com/shorts/_PlyWKqDhAE?si=2-C69ZWsCWW_-_tU Amazon, Develops Video AI Model "Olympus"
  • 주상원
[241125] Mistral Le Chat, OpenAI VoiceMode Web, Live Camera, Gemini Remember, ElevenLabs Conversational AI Agent
Mistral, chat service open Mistral AI의 무료 생성형 AI 작업도우미 공개 창작, 코딩 보조, 특정 작업 수행 등 다양한 활용 가능. 기능: 웹 검색: 인용이 포함된 검색 결과 제공. 학습, 연구, 업무용으로 사용. 최신 정보와 통합된 모델. 캔버스(Canvas): 아이디어 생성, 인라인 편집, 문서/코드 생성 및 버전 관리 가능. 문서 및 이미지 이해: 새로운 Pixtral Large 모델로 대규모 문서 및 이미지 분석. 이미지 생성: Black Forest Labs의 Flux Pro 모델 통합. 작업 에이전트(Agents): 반복적인 작업 자동화(예: 영수증 스캔, 회의 요약). 자동화된 워크플로우 생성 및 공유 가능. 주요 경쟁 AI 도구와의 비교: 모든 기능은 현재 무료 베타로 제공. 프리미엄 요금제로 확장 계획(추후 고급 서비스 보장). https://mistral.ai/news/mistral-chat/ OpenAI, 웹브라우저 voice mode 지원 9월 모바일앱에서 공개됐던 voice mode를 웹브라우저에서도 사용할 수 있음 현재 유료 사용자를 대상으로 공개됐으나, 추후 무료 사용자에게도 공개할 예정 Plus, Team plan에는 사용시간 제한이 있음 OpenAI, GPT-4o 모델 업데이트
  • 주상원
Made with Slashpage