Share
Sign In

Weekly-ai

한주간의 AI 소식을 전달합니다.
[250216]OpenAI 로드맵, Adobe Firefly, Anthropic Hybrid AI Model, Perplexity update,
OpenAI 로드맵과 제품 업데이트 모델 통합 및 사용자 경험 개선: 기존의 여러 모델(예: GPT-4, GPT-3 등) 선택 옵션이 너무 복잡하다는 문제 인식. “마법 같은 통합 인텔리전스”라는 목표 아래, 사용자가 프롬프트만 입력하면 내부적으로 최적의 모델을 선택하여 응답하는 시스템 구축 계획. 신규 모델 출시 계획: 내부적으로는 GPT-4.5(코드명 Orion)로 불리는 모델이 곧 출시될 예정이며, 이는 최종 비체인 오브 씽킹(non-chain-of-thought) 모델로 알려짐. 이후 GPT-5부터는 테스트타임 컴퓨트(test-time compute) 방식을 도입하여, 프롬프트 입력 시 실시간으로 “생각”하는 과정을 반영할 예정. 서비스 등급에 따른 차별화: 무료 사용자에게는 GPT-5 제공. 구독자와 프로 사용자에게는 더 높은 수준의 인텔리전스 옵션을 제공하여, 사용 목적에 맞는 맞춤형 서비스 제공. 기능 및 사용성 업데이트: 프로 사용자 대상 딥 리서치(Deep Research) 기능이 모바일(iOS, Android)과 데스크탑(Mac, Windows) 모두에서 활성화됨. OpenAI 01과 03 mini 버전에 파일 및 이미지 업로드 기능 추가되어, PDF나 이미지 자료에 대해 질문하고 분석할 수 있음. Plus 사용자를 위해 03 mini high의 일일 사용량 제한이 7배 상향되어 최대 50회 사용 가능. 오픈 소스 관련 발언: 최근 샘 알트만은 오픈 소스에 대한 논의도 진행하며, 앞으로 일부 모델 또는 기술을 오픈 소스 방식으로 공개할 가능성을 시사함. 이는 머스크가 주장하는 “원래의 개방적 목표”와 일맥상통하는 부분으로, 향후 OpenAI의 전략 방향에 관심이 집중됨. Adobe Firefly – AI 기반 비디오 생성 도구 핵심 기능 및 특징:
  • 주상원
[20250210] OpenAI o3-mini, Deep Research, Cursor $100M ARR
OpenAI, o3-mini 비용 효율적인 최신 reasoning 모델로, 고급 수학 및 코딩 문제에서 뛰어난 성능을 발휘함. 함수 호출(Function Calling), 구조화된 출력(Structured Outputs), 개발자 메시지 지원 등 다양한 기능을 지원하여 유연성을 높임. 세 가지 reasoning effort 제공: Low, Medium, High, 이를 통해 사용자는 응답 속도와 정확성 간의 균형을 조절 가능. Low Reasoning Effort: 빠른 응답이 필요한 경우 적합 (예: 단순 요약, 기본적인 코드 생성). Medium Reasoning Effort (기본값): 속도와 정확성의 균형을 유지하며, 일반적인 AI 활용에 적합 (예: 중간 난이도의 수학 문제 해결, 논리적인 질문 응답). High Reasoning Effort: 복잡한 문제 해결을 위해 더 깊이 있는 추론 수행 (예: 고급 알고리즘 문제 해결, 과학적 분석, 논리적 사고 요구). 스트리밍 지원 (단, 비전(이미지) 기능 없음), 따라서 시각적 이해가 필요한 작업에서는 OpenAI o1 모델 사용 권장. ChatGPT 및 API(Chat Completions, Assistants, Batch API)에서 사용 가능하여 다양한 개발 환경에서 활용 가능. Plus 및 Team 사용자의 메시지 제한이 기존 o1-mini의 50개에서 150개로 증가, 이를 통해 더 많은 쿼리를 실행할 수 있음. 검색 기능 추가(웹 링크 제공)로 최신 정보를 더욱 정확하게 제공할 수 있음. 무료 사용자도 'Reason' 모드 선택을 통해 사용 가능, 이는 OpenAI reasoning 모델 중 처음으로 무료 사용자에게 제공됨. OpenAI, Deep Research 인터넷에서 방대한 정보를 수집·분석·종합해, 복잡한 과제를 수십 분 안에 자동으로 해결해주는 역할을 수행 Deep research는 5분에서 최장 30분 동안 인터넷을 탐색해 세부적인 보고서를 작성함 작업 진행 중에는 단계별 요약과 참조 출처가 표시되는 사이드바를 통해 과정을 확인 가능 최종 결과물은 광범위한 인용과 함께 보고서 형태로 제공되며, 향후 이미지·데이터 시각화 등도 포함될 예정 동작원리 OpenAI o1의 추론 능력을 확장한, 다음 세대 모델(OpenAI o3 기반)을 활용해 복잡한 브라우징과 분석 작업에 대응
  • 주상원
👍
1
[20250202] DeepSeek
DeepSeek 중국 항저우 인공지능 회사. DeepSeek-V3 등 MoE 모델들 출시. V3의 경우 타 회사 대비 API 비용이 10배 이상 쌈. V3모델에 강화학습(feat. GRPO) 방식을 적용한 것이 R1 감춰져있던 OpenAI-o1은 어떻게 만들까?에 대한 방법론 제시. 답은 SFT->RL->SFT->RL 오해 전체 비용이 80억 아님 V3를 한번 학습하는데 드는 비용이 80억임. 보통 모델을 학습하는 과정은 여러 파라미터를 조정하면서 여러번 시도하기 때문에 학습과정에서 더 많은 비용이 들어갔을 것으로 추정됨. V3를 학습하는데 들어간 비용이 80억이고, R1에 CoT학습데이터를 대규모로 넣어서 강화학습을 진행했기 때문에 더 많은 비용이 들어갔을 것으로 예상됨 저사양 GPU에서만 학습한 것은 아님 Deepseek의 모회사인 highflyer는 퀀트 기반의 헤지펀드로 이미 고성능 gpu를 많이 확보하고 있을 것이라는 의견이 지배적(A100과 H100 모두 1만장씩 보유하고 있을 것이라는 의견도 존재) 연산량 최적화로 OpenAI대비 낮은 가격으로 API 제공가능 inference 과정에서 연산량을 줄이는 MLA 기법(아래 설명)이 사용되었으나, 이것만으로 훨씬 낮은 가격으로 제공할 수 있는 수준은 아님 OpenAI의 가격이 너무 비싼 수준이었거나, Deepseek가 데이터확보를 위해 원가이하의 가격으로 모델을 제공 중일 가능성이 있음 혁신적은 학습방법론을 제안한 것은 아님 MLA를 제외하고는 가설로 나와있거나 이미 적용되고 있는 기술이었음. 이걸 잘 조합한 하고 방법론을 공개한 부분은 충분히 의미가 있음 기여
  • 주상원
[250120] OpenAI Tasks, Google Titans, MS MatterGen, Sakana AI Transformer Square
OpenAI "Tasks" 공개 반복적인 작업을 설계할 수 있는 기능 공개 작업 내용과 반복주기를 명시하면 작업이 등록되며, 작업이 완료되면 앱푸시 혹은 이메일로 알림 현재 ChatGPT Web, iOS, Android, MacOS에서 서비스 지원 중 유저가 offline 상태에서 작업이 수행됨 최소 15분 주기로 반복작업 스케쥴링 가능 Google, 새로운 아키텍처 Titans 공개 기존 대형언어모델(LLM)의 한계를 극복하기 위해 '타이탄즈(Titans)' 발표. 인간 뇌의 기억 구조를 모방한 신경 장기 기억 모듈(neural long-term memory module) 도입. 타이탄즈의 핵심 기술 트랜스포머와 순환신경망(RNN) 융합: 각 기술의 강점을 결합해 긴 문맥 정보를 효율적으로 저장·활용. 3개 메모리 모듈: 단기 메모리: 현재 문맥 데이터를 처리. 장기 메모리: 과거 데이터를 학습·저장하며 필요 시 검색 가능. 지속 메모리: 특정 태스크 관련 사전지식 저장. 적응형 학습 및 망각 입력 데이터의 surprise 지표 기반으로 중요 데이터 강화 학습 및 불필요 데이터 제거. 성과 및 기대 긴 문맥(200만 토큰 이상)에서도 높은 정확도를 유지하며 기존 모델의 성능 저하 문제 극복.
  • 주상원
[241216] OpenAI Sora, Google Gemini 2.0 & Astra, Mariner, Meta Llama 3.3 70B
openAI, 텍스트-투-비디오 모델 'Sora' 출시 OpenAI는 텍스트 입력을 기반으로 영상을 생성하는 AI 모델 'Sora'를 공개. 이는 ChatGPT Plus 및 Pro 사용자들에게 제공되며, 다양한 기능과 제한 사항이 포함되어 있음. 주요 기능: 텍스트 프롬프트를 통해 최대 20초 길이의 1080p 해상도 영상을 생성할 수 있으며, 이미지 애니메이션, 비디오 리믹스 등 다양한 창작 도구를 제공 제한 사항: 유럽연합, 스위스, 영국에서는 법적 제한으로 인해 서비스가 제공되지 않으며, 사람의 모습을 사실적으로 묘사하는 기능은 오용 방지를 위해 제한. 가격 정책: ChatGPT Plus 구독자는 월 $20에 최대 50개의 우선 생성 영상을 이용할 수 있으며, ChatGPT Pro 구독자는 월 $200에 무제한 영상 생성을 지원하며, 워터마크 없는 다운로드가 가능 기술적 발전: 이전 버전 대비 속도와 신뢰성이 향상된 'Sora Turbo' 버전이 제공되며, 텍스트, 이미지, 비디오 입력을 받아 새로운 영상을 생성하는 멀티모달 기능을 갖추고 있음 윤리적 고려: 아동 학대 자료나 성적 딥페이크 등의 부적절한 콘텐츠 생성을 방지하기 위한 조치가 마련되어 있으며, AI로 생성된 영상에는 워터마크와 C2PA 메타데이터가 포함되어, AI 생성 여부를 명확히함. 구글, 차세대 AI 모델 'Gemini 2.0' 발표 구글은 자사의 AI 모델 Gemini의 두 번째 버전인 'Gemini 2.0'을 공개하며, 사용자들을 위한 고도화된 AI 에이전트를 공개 Nvidia가 아닌 자체 TPU v6로 학습한 모델 주요 기능: 이미지와 오디오를 처리할 수 있는 능력을 갖추었으며, 사용자의 요구를 예측하고 이에 따라 행동하는 가상 비서 기능을 강조 적용 분야: 구글 검색, 안드로이드, 유튜브 등 다양한 플랫폼에 통합되어 사용자 경험을 향상시키는 데 중점 프로젝트 Astra: 범용 AI Agent 프로젝트 실시간 대화와 혼합 언어 처리가 가능하며, 지도 정보와 이미지 인식을 통해 사용자에게 필요한 정보를 제공 https://youtu.be/Fs0t6SdODd8 프로젝트 Mariner : 복잡한 작업을 수행하는 에이전트 브라우저 화면의 정보를 이해하고 추론하며, 작업을 수행하는 에이전트 https://youtu.be/2XJqLPqHtyo 기타 혁신: 크롬 확장 프로그램을 통한 작업 자동화, 소프트웨어 코딩 보조 도구 'Jules', 비디오 게임을 위한 의사 결정 도구 등 다양한 AI 기반 솔루션을 개발 중. Meta, Llama 3.3 70B 모델 공개
  • 주상원
[241209] OpenAI, o1 Pro / ChatGPT Pro, o1 System Card
OpenAI, o1 Pro / 월 $200 ChatGPT Pro 요금제 출시 OpenAI가 o1 공식버전을 출시하였음. 공식버전에는 o1과 o1 Pro버전이 포함되어 있으며, 이 버전을 사용할 수 있는 월 $200 ChatGPT Pro 요금제도 함께 출시했음. o1 공식버전은 다양한 벤치마크에서 o1 preview 버전에 비해 좋은 성능을 보여주고 있음 특히 내부 테스트 결과 preview에 비해 중대한 오류의 비율이 34% 감소한 것으로 알려짐 o1 pro의 경우, 추론을 위해 더 많은 연산을 요구하기 때문에 시간이 오래걸리며 progress bar를 통해 진행률을 안내해줌 OpenAI, Chatgpt 2주년 interview 새라 프라이어 CFO 2025년의 키워드는 Agent가 될 것이며, 사람들의 일상을 돕는 매우 성공적인 에이전트가 처음으로 세상에 공개될 것 25년에도 지속적으로 투자를 유치할 계획(직전 라운드 1,570억 달러 가치로 66억달러 투자유치) 크리스 리한 정책책임자 미국 중서부/남서부 지역에 데이터센터 클러스터 구축할 계획. 오라클 및 카루소와 엔비디아 블랙웰 5만장을 투입하는 클러스터 구축 중 칩, 데이터, 에너지가 AI 경쟁에서 성공하는데 필요한 중요한 리소스 23년 말 대비 직원 수 3배 증가하여 현재 2,000여명이며, 새로운 팀 중 다수는 소비자 제품을 구축하고 수익화하는 것에 전문성을 갖고 있음. 지금까지 연구 중심적인 체제에서 벗어나 장기적인 관점의 연구와 단기적으로 소비자 및 기업에 제공할 제품을 제공할 준비를 하였음 https://www.cnbc.com/2024/12/03/openai-hires-first-marketing-chief-from-coinbase.html 올해 40억달러 이상의 적자가 예상되며, 내년에는 140억달러로 늘어갈 예정 OpenAI, o1 System Card 서론 o1 모델 시리즈는 chain of thought를 사용하는 대규모 강화학습을 통해 추론 능력을 훈련받음
  • 주상원
[241202] SuperWeight in LLM,
Apple, published "Super Weight in LLM" Apple에서 공개된 논문으로 LLM의 성능에 결정적인 영향을 미치는 '슈퍼 가중치(super weights)'라는 특정 파라미터가 존재하며, 이를 식별하는 방법에 대한 논문 이전에도 weight outlier라는 개념은 존재하였음. 이 weight outlier는 보통 0.01%정도로 적은 비중이지만 파라미터 수가 수십억개이기 때문에 수십만개의 outlier가 존재하였음 본 논문은 모델 성능에 아주 극적인 영향을 끼치는 극소수(대부분의 모델에서 3개이하)의 weight가 존재하며, 이를 찾는 방법을 제안함 Super Weight 하나만 제거해도 모델 성능이 극단적으로 저하됨. 예) 퍼플렉시티(perplexity) 1,000배 증가, 제로샷 정확도 추측 수준으로 감소. 따라서 Super Weight를 보존하면서 기존의 양자화기술을 사용할 경우, 정확도 손실을 최소화하면서 경량화할 수 있음 OpenAI, Sora 유출 OpenAI는 일부 예술가들을 대상으로 Sora에 대한 클로즈테스트를 진행해왔음 Sora PR 퍼펫이라는 예술가그룹이 Sora API를 공개하면서 일반인들도 기능을 사용할 수 있게 됐고, 갑자기 트래픽이 몰리자 서비스 접근을 중단시킴 API를 공개한 예술가 그룹은 OpenAI에 의해 무급노동을 하고 있다며 이번 유출사건의 이유를 밝힘 https://youtu.be/FI0wWpmraW0?si=Nc7Gam5xdCIhJLg2 ElevenLabs, GenFM PDF, article 등 다양한 텍스트 input을 넣으면 팟캐스트 형태로 생성해주는 서비스 공개 Elevenlabs Reader iOS앱에서 사용가능하며, 현재 32개 언어를 지원함 Google, NotebookLM에서도 동일한 기능을 제공하나, 훨씬 더 자연스러운 대화에 초점을 둔 서비스 https://youtube.com/shorts/_PlyWKqDhAE?si=2-C69ZWsCWW_-_tU Amazon, Develops Video AI Model "Olympus"
  • 주상원
[241125] Mistral Le Chat, OpenAI VoiceMode Web, Live Camera, Gemini Remember, ElevenLabs Conversational AI Agent
Mistral, chat service open Mistral AI의 무료 생성형 AI 작업도우미 공개 창작, 코딩 보조, 특정 작업 수행 등 다양한 활용 가능. 기능: 웹 검색: 인용이 포함된 검색 결과 제공. 학습, 연구, 업무용으로 사용. 최신 정보와 통합된 모델. 캔버스(Canvas): 아이디어 생성, 인라인 편집, 문서/코드 생성 및 버전 관리 가능. 문서 및 이미지 이해: 새로운 Pixtral Large 모델로 대규모 문서 및 이미지 분석. 이미지 생성: Black Forest Labs의 Flux Pro 모델 통합. 작업 에이전트(Agents): 반복적인 작업 자동화(예: 영수증 스캔, 회의 요약). 자동화된 워크플로우 생성 및 공유 가능. 주요 경쟁 AI 도구와의 비교: 모든 기능은 현재 무료 베타로 제공. 프리미엄 요금제로 확장 계획(추후 고급 서비스 보장). https://mistral.ai/news/mistral-chat/ OpenAI, 웹브라우저 voice mode 지원 9월 모바일앱에서 공개됐던 voice mode를 웹브라우저에서도 사용할 수 있음 현재 유료 사용자를 대상으로 공개됐으나, 추후 무료 사용자에게도 공개할 예정 Plus, Team plan에는 사용시간 제한이 있음 OpenAI, GPT-4o 모델 업데이트
  • 주상원
[241118] OpenAI AI Agent Tool Operator, Perplexity Advertising, GenAI Startup Valuation, Gemini AI Slowdown
OpenAI, AI Agent Tool "Operator" 일상 작업(코딩, 여행 예약 등)에 AI를 통합할 수 있도록 설계된 업무자동화 tool "Operator"를 25년 1월 중 출시 예정 Operator는 여러 단계로 이루어진 복잡한 작업을 자동화하여 생산성을 높이는 tool 특정 작업에 국한되지 않은 범용 도구로 설계되었으며, 코딩, 웹 브라우징, 여행 예약, 이메일 관리 등 다양한 도메인에서 작업 자동화 가능. API 제공으로 기존 워크플로우에 쉽게 통합 가능하며 기업 및 개인이 인프라를 재구축하지 않고도 프로세스를 자동화할 수 있는 기회를 제공. API를 활용해 고객 서비스 챗봇, 데이터 분석 도구 등 맞춤형 애플리케이션 개발 가능. 경쟁사 AI 에이전트 비교 Anthropic의 "Computer Use" 사용자의 컴퓨터와 직접 상호작용하며 실시간 작업 수행. 파일 관리, 커뮤니케이션, 행정 업무 자동화에 초점. 특정 작업에 초점이 맞춰져 있어 범용성은 Operator보다 낮음. Microsoft의 Copilot AI Microsoft Office 제품군과 통합된 Copilot AI는 보고서 생성, 일정 관리, 데이터 입력 등을 자동화 개인화된 지원 제공, Operator와 유사한 사용자 경험 목표. Google의 AI 에이전트(루머) Google 서비스(검색, 이메일, Google Docs 등)와 통합될 것으로 예상. 워크플로우 간소화 및 사용자 경험 강화 가능성. Perplexity, 광고모델 도입
  • 주상원
[241111] Runway Advanced Camera Control, OpenAI Shift Strategy, MS, Multi-Agent System Magenetic One
Runway, Advanced Camera Control 기능출시 https://help.runwayml.com/hc/en-us/articles/34926468947347-Creating-with-Camera-Control-on-Gen-3-Alpha-Turbo https://x.com/runwayml/status/1852363185916932182 OpenAI, Shifts Strategy as Rate of ‘GPT’ AI Improvements Slows 차세대 모델인 Orion이 text 생성 능력은 전작에 비해 훌륭하지만, 코드 생성과 같은 특정 task에서는 이전 모델 대비 좋은 성능이 나오지 않고 있음. 또한 text 생성 능력의 향상이 GPT-3에서 GPT-4로 업그레이드 됐을 때에 비해서 크지 않음. 더 이상 GPT를 학습하기 위한 양질의 데이터가 부족하기 때문에 모델 개선이 느려지고 있다고 봄. 이 문제를 해결하기 위해 pre-training을 담당했던 Nick Ryder가 이끄는 Foundation Team을 구성하였고, 이전 모델이 생성한 데이터로 모델 학습을 진행하고 있음. 모델사업자들은 pre-train보다는 특정 task에 대한 성능을 향상시키는 것에 집중하는 것으로 전략을 바꾸고 있음. https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows?rc=znzucw MS, Multi-Agent System Magenetic One 공개 Magnetic-One은 주 에이전트인 오케스트레이터와 네 가지 보조 에이전트(WebSurfer, FileSurfer, Coder, Computer Terminal)로 이루어져 있음. 오케스트레이터는 이 네 가지 에이전트를 지휘하며, 작업 계획을 세우고 진행 상황을 추적합니다. 만약 작업 중 오류가 발생하면 재계획을 세워 문제를 해결 에이전트 WebSurfer: 브라우저를 제어하여 웹사이트를 탐색하고 검색 작업을 수행하며, 콘텐츠를 요약 FileSurfer: 로컬 파일을 관리하고 디렉토리를 탐색 Coder: 코드를 작성하고 다른 에이전트들로부터 받은 정보를 바탕으로 새로운 프로젝트를 생성 Computer Terminal: Coder가 생성한 명령을 실행할 수 있는 콘솔을 제공합 https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
  • 주상원
[241104] OpenAI ChatGPT Search, ChatGPT Desktop Voice, Google Search Grounding with Gemini, MS Copilot Supports Google & Anthropic Model,
ChatGPT Search 공개 실시간 웹검색지원 검색결과에 출처가 표시되며, 인용된 웹페이지 글 함께 전달 특정 검색도메인에 대해선 최적화된 UI 제공 날씨, 주식, 스포츠, 뉴스, 지도 영역 검색결과 비교(GPT Search vs Perplexity) Perplexity의 검색결과 및 서브피쳐들이 더 사용성이 높다는 평가가 일반적 ChatGPT, Desktop Voice 공개 ChatGPT Desktop 설치프로그램 다운로드시 Voice 모드 이용가능 Google, Gemini에 Google Search를 연결 Gemini API와 Google AI Studio에서 모델에 구글검색결과를 연결하여 최신 정보를 활용할 수 있도록 하는 기능 MS, Github Copilot에 Anthropic과 Google의 모델 도입 Microsoft의 GitHub Copilot은 이제 OpenAI 모델뿐만 아니라 Anthropic과 Google의 AI 모델도 통합한다고 발표. Copilot은 Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5 Pro, OpenAI의 GPT-4o 및 기타 모델을 지원할 예정. Microsoft는 OpenAI와의 오랜 파트너십을 통해 Copilot을 2022년 6월에 처음 출시하며 초기 수익을 얻음. GitHub Copilot의 구독료는 개인 사용자당 월 $10이며, 기업 플랜은 $19~$39까지 다양한 기능에 따라 책정됨. GitHub CEO Thomas Dohmke는 개발자들이 다양한 AI 모델을 원하기 때문에 Anthropic과 Google의 모델도 사용한다고 언급. Anthropic은 최근 코드 작성 AI 분야에서 OpenAI를 앞지르는 성과를 보이며 높은 평가를 받고 있음. Runway의 창업자 Siqi Chen은 Anthropic의 Claude 3.5가 OpenAI의 GPT-4o보다 코드 작성과 추론에서 더 우수하다고 평가.
  • 주상원
[241028] Claude Computer Use, MS, Autonomous Agent, FAIR LayerSkip Solution, Meta Quantized Llama, xAI API
Claude, Computer Use 공개 프롬프트를 통해 PC를 제어하는 기능 프롬프트가 주어지면, 화면을 캡쳐해서 분석하고 어떤 행동을 해야할지 절차를 수립한다. https://youtu.be/vH2f7cjXjKI?feature=shared https://www.anthropic.com/news/3-5-models-and-computer-use MS, autonomous agent with Microsoft Copilot Studio 공개 자율적으로 동작하는 Agent를 사용자가 제작할 수 있 생성된 에이전트들은 Microsoft 365 Graph, Dataverse, Fabric 등의 데이터를 활용하며, IT 지원에서 직원 온보딩, 고객 서비스에 이르기까지 다양한 용도로 사용될 수 있 Microsoft는 Dynamics 365에 10개의 새로운 에이전트를 추가했습니다. 이 에이전트들은 판매, 서비스, 재무, 공급망 팀의 역량을 강화하는 데 중점을 둠. 예를 들어, ‘판매 자격 에이전트’는 판매자가 우선순위 높은 기회를 파악할 수 있도록 지원하며, ‘공급자 커뮤니케이션 에이전트’는 공급망의 원활한 운영을 보장 이미 여러 조직들이 Copilot Studio를 활용하여 자율 에이전트를 구축하고 있으며, McKinsey & Company와 Thomson Reuters는 온보딩 속도와 법적 업무 효율성을 크게 향상시키는 데 성공. Fortune 500 기업의 60%가 Microsoft 365 Copilot을 사용하고 있으며, Lumen Technologies와 Honeywell 등 기업은 이를 통해 수백만 달러의 비용 절감과 생산성 향상을 달성하였음 https://youtu.be/qxMi-tLg4MA?feature=shared FAIR, LayerSkip Solution 연결된 layer의 output간의 유사도가 높을 경우, 뒤에 layer을 skip하는 모델 early exit을 통해 속도향상 https://arxiv.org/pdf/2404.16710 Meta, Quantized Llama
  • 주상원
[241021] OpenAI MLE 벤치마크, Swarm, Meta MovieGen
OpenAI, MLE(머신러닝엔지니어링) 벤치마크 공개 MLE-bench : AI 에이전트의 머신러닝 엔지니어링 능력을 측정하기 위한 벤치마크 대회 구성: Kaggle에서 75개의 머신러닝 관련 대회를 선택해, 실제 현장에서 요구되는 모델 훈련, 데이터 준비, 실험 실행 등의 기술을 평가할 수 있는 과제를 마련 각 대회에서 인간 참가자들이 달성한 성과를 기준점으로 설정하여 AI와 비교 AI 평가 결과: OpenAI의 'o1-preview'와 AIDE 구조를 결합한 AI 에이전트가 16.9%의 대회에서 Kaggle 동메달 수준의 성과를 달성 MLE-bench의 벤치마크 코드를 오픈소스로 제공 OpenAI, Multi Agent 오케스트레이션 프레임워크 공개 Swarm은 ‘에이전트 AI’를 현실로 구현하려는 시도로, 다수의 AI 에이전트를 효율적으로 관리하고 협업할 수 있는 실험적 프레임워크 다중 에이전트 오케스트레이션: Swarm은 여러 AI 에이전트가 함께 작업하며 자연어를 통해 상호작용하고, 작업을 분담하며, 데이터를 주고받는 방식으로 협업 ‘루틴’과 ‘핸드오프’ 개념: Swarm에서 루틴은 자연어로 정의된 작업 지침이며, 핸드오프는 하나의 에이전트가 다른 에이전트에게 작업을 전달하는 방식 경량화된 에이전트: Swarm의 에이전트들은 각각의 작업이 좁게 정의된 경량화된 형태로, 여러 에이전트를 결합해 복잡한 작업을 수행 에이전트 AI의 장점과 한계 장점: 자연어를 사용해 AI 에이전트를 정의할 수 있어 개발이 간편하며, 자동화된 방식으로 복잡한 작업을 처리 가능 한계: 에이전트 AI가 처리할 수 있는 작업의 범위가 제한적일 수 있으며, 자연어의 모호성으로 인해 예기치 않은 결과를 초래할 가능성 있음. 또한, AI의 비인간적 사고로 인해 비상식적인 행동을 할 수 있는 위험 존재 개발자용 실험적 도구: Swarm은 개발자들이 에이전트 AI를 실험해볼 수 있는 도구로, GitHub에서 코드가 제공 Meta, MovieGen 공개 주요기능 비디오 및 오디오 생성: 텍스트 프롬프트를 통해 최대 16초 길이의 1080p 고화질 비디오와 48kHz 오디오를 생성 가능
  • 주상원
[241004] OpenAI AI Agent, Canvas, Vision Finetuning, Realtime API, Model Distillation
OpenAI, 2025년 AI Agent 출시 예정 OpenAI는 2025년에 독립적으로 작업을 수행할 수 있는 AI Agent를 출시할 계획임. Agent에이전트는 인간의 개입 없이 복잡한 작업을 처리하며, 시간이 많이 걸리는 작업을 짧은 시간 내에 처리할 수 있음. AI 발전 단계 중 현재는 2단계(논리적 사고 후 응답)이며, 에이전트는 3단계(독립적 행동 수행)에 해당함 Agent 출시의 가장 큰 과제는 AI가 인류의 가치에 맞게 작동하도록 정렬시키는 것임. Agent는 다양한 분야에서 일상적인 작업을 효율적으로 처리하는 데 기여할 것으로 기대됨. OpenAI는 Agent가 안전하게 작동하도록 철저한 안전 테스트를 진행하고 있음.https://www.tomsguide.com/ai/chatgpt/the-agents-are-coming-openai-confirms-ai-will-work-without-humans-in-2025 https://www.tomsguide.com/ai/chatgpt/the-agents-are-coming-openai-confirms-ai-will-work-without-humans-in-2025 OpenAI, ChatGPT의 신규 인터페이스 Canvas 출시 OpenAI는 글쓰기 및 코딩 프로젝트를 위해 새로운 인터페이스인 Canvas를 도입함. 캔버스는 ChatGPT와 프로젝트를 나란히 진행할 수 있도록 하는 협업 도구로, 사용자와 AI가 함께 아이디어를 구상하고 편집함. 캔버스 기능은 글쓰기에서 길이 조정, 읽기 수준 변경, 최종 수정, 이모지 추가 등 작업을 지원하며, 코딩에서는 코드 리뷰, 로그 추가, 버그 수정, 언어 변환 기능을 제공함. 캔버스는 GPT-4o 모델 기반으로 구축되었으며, 현재 ChatGPT Plus와 팀 사용자에게 제공 중이고, 추후 모든 사용자가 이용 가능해질 예정임. 캔버스는 대화식 작업을 넘어선 새로운 방식의 프로젝트 협업을 제공하며, 특정 작업 시 자동으로 열리거나 명령어로 호출 가능함. 모델은 글쓰기와 코딩 작업에서 타겟팅된 수정과 재작성을 구분하여 적용함. https://openai.com/index/introducing-canvas/
  • 주상원
[240909] OpenAI GPT-Next, Claud Enterprise, Meta SAM2
OpenAI, GPT-Next KDDI는 9월 3일 'KDDI SUMMIT 2024'를 개최하며, 통신과 AI에 집중할 것을 재차 표명함. OpenAI Japan 대표 나가사키 타다오가 참가, OpenAI의 사업 개요 및 향후 발표될 AI 모델 'GPT Next'에 대한 견해를 공유함. GPT-3와 GPT-4의 성능 차이는 100배에 달하며, 향후 출시될 'GPT Next'는 더욱 진화된 모델로 GPT-4에 비해 100배 더 좋은 성능을 낼 것으로 예상 GPT Next는 단순히 모델 사이즈가 커진 것이 아니라, 아키텍처 자체를 개선하고 학습효율을 높였음. 특히 OpenAI가 개발 중인 고급AI모델인 Strawberry의 축소판 모델이 GPT Next에 사용될 예정 올해 안에 출시될 가능성 확인("GPT Next 2024") 8월 말 기준 ChatGPT의 WAU는 2억 명 돌파 기업용 서비스 'ChatGPT Enterprise'는 8월 말 영어권 서비스 개시 1주년을 맞이하며 빠르게 채택되고 있음. 주요 파트너로 애플, 코카콜라, 모더나 등이 포함됨. OpenAI 직원 수는 2000명 미만, 그 중 절반은 AI 개발에 참여 Claude Enterprise Claude Enterprise Plan 발표: 조직 내 지식과 협업을 강화하기 위한 기능 제공. 500K 컨텍스트 윈도우: 확장된 컨텍스트 윈도우로 수백 개의 판매 기록, 수십 개의 100+ 페이지 문서, 중형 코드베이스를 처리 가능. GitHub 통합: GitHub 리포지토리와의 네이티브 통합으로 코드베이스 작업, 디버깅, 엔지니어 온보딩 지원. 베타 출시 중이며, 올해 말 더 널리 제공될 예정. 보안 기능: SSO, 역할 기반 권한 부여, 감사 로그, SCIM을 포함한 기업용 보안 및 관리 도구 제공. 사용자 데이터 보호: Claude는 사용자의 대화와 콘텐츠로 AI를 훈련하지 않음. 활용 사례: GitLab과 Midjourney는 Claude를 사용해 브레인스토밍, 콘텐츠 생성 및 번역, 코드 작성 등 다양한 업무를 수행함. 엔터프라이즈급 통제: 사용자 접근 관리, 데이터 보호 강화, 감사 로그 및 자동 사용자 관리 기능 제공 예정.
  • 주상원
[240902] OpenAI Strawberry, Amazon Covariatn Acqui-Hire, Alibaba Qwen-2-VL, Cerebras Inference Soluation
OpenAI, Strawberry and Orion Strawberry (이전 명칭 Q): OpenAI가 개발 중인 새로운 AI 모델로, 어려운 수학 문제와 프로그래밍 문제를 해결할 수 있는 능력을 갖추고 있음. 기존의 AI보다 훨씬 더 복잡한 문제를 해결할 수 있도록 설계됨. 제품 출시 목표: 올해 가을까지 Strawberry를 ChatGPT 같은 챗봇에 통합하여 출시하는 것을 목표로 하고 있음. 다만, 완전한 기능의 Strawberry는 아직 준비 중이며, 축소된 버전이 먼저 출시될 가능성도 있음. OpenAI는 이 기술을 미국 국가 안보 당국자들에게 시연했으며, 이는 AI 기술의 국가 안보 우려가 커지고 있는 상황에서 중요한 의미를 가짐. 'Strawberry'는 OpenAI의 차세대 언어 모델인 'Orion'의 고품질 학습 데이터를 생성하는 데 중요한 역할을 함. 'Orion'의 환각을 줄이기 위해 'Strawberry'를 활용할 계획이며, 이는 모델이 더 정확한 예제를 학습할 수 있게 돕기 위함임. ChatGPT 사용자가 요청의 시간 민감도에 따라 'Strawberry'를 켜고 끌 수 있는 기능이 도입될 가능성도 있음. 경쟁 상황: Google, Anthropic 등 경쟁사들도 유사한 AI 기술을 개발 중이며, OpenAI는 경쟁에서 앞서기 위해 Strawberry와 Orion의 개발을 가속화하고 있음. Amarzon, Covariant Acqui-Hire 아마존의 인재 영입: 아마존이 산업 로봇 회사 Covariant의 창립자들을 영입. 최근 마이크로소프트가 AI 회사 Inflection의 창립자들과 대부분의 직원을 인수했었음 기업 가치와 투자자: Covariant는 2023년 4월 자금 조달 라운드에서 6억 2,500만 달러의 가치를 평가받았으며, 투자자로는 Index Ventures, 싱가포르 국부펀드 Temasek, 그리고 빌 게이츠의 Cascade Asset Management가 포함되어 있음 아마존은 Covariant의 창립자인 피터 아벨(Pieter Abbeel), 피터 첸(Peter Chen), 그리고 로키 두안(Rocky Duan)을 영입했으며, 회사의 직원 중 약 4분의 1을 자사의 이행 기술 및 로봇 팀에 합류시킬 계획 Alibaba, Qwen-2-VL 모델 공개 다양한 해상도 및 비율의 이미지에 대한 SoTA 이해 : Qwen2-VL은 MathVista, DocVQA, RealWorldQA, MTVQA 등을 포함한 시각적 이해 벤치마크에서 최첨단 성능을 달성. 20분 이상 영상 이해 : Qwen2-VL은 20분 이상의 영상을 이해하여 고품질 영상 기반 질의응답, 대화, 컨텐츠 생성 등에 활용 가능
  • 주상원
[240826] Ideogram 2.0, Dream Machine 1.5, Perplexity Code Interpreter & ADs, MS Phi-3.5, GPT-4o Finetuning, Gen AI Top100 Apps
Ideogram 2.0 공개 텍스트표현력이 좋은 Text-to-image모델로 midjeourney의 경쟁서비스 2.0 업데이트를 통해서 이전보다 더 현실적인 이미지 생성이 가능해졌음 iOS 앱이 출시되었으며, API를 통해서 서비스 이용이 가능해짐 레퍼런스 이미지를 통해서 새로운 이미지를 생성하는 것이 가능해짐 FLUX pro, DALLE-3 대비 Alignment(prompt와 실제 이미지간의 일치성)가 높다고 주장 Dream machine 1.5 '24.6 beta 버전 출시 이후 2개월 만에 업그레이드버전 출시 사실감, 동작추적, 직관적인 프롬프트 이해 등 전반적인 성능이 업데이트 됐음 특히 영상 내에 텍스트를 생성하는 타이포그래픽 기능이 대폭 향상 되었음 https://x.com/LumaLabsAI/status/1825639918539817101 Perplexity Code Interpreter 프로그래밍을 통한 작업지시가 가능한 Code Interpreter 기능이 배포되었음(현재는 일부 유저만 사용가능) 사용자들은 특정 python library를 설치하고 이를 활용해서 결과를 제공하도록 지시할 수 있음. Perplexity 광고BM 도입
  • 주상원
[240819] X.ai Grok-2 Release, Antropic Prompt Caching, Sakana AI Scientist, Google Gemini Live, ChatGPT Structured API
X.ai, Grok-2 Beta Release Grok-2, Grok-2 mini 모델 release. X premium 사용자 대상 LMSys 리더보드에서 Claude 3.5 Sonnet과 GPT-4-Turbo보다 우수한 성능을 보임 스타트업 Black Forest Labs와 협력하여 개발되었으며, 특히 AI 생성 이미지를 만드는 FLUX.1 모델 사용 실제 인물을 생성할 수 있으며 이미지 생성에 대한 어떤 제한(가드레일)도 없는 상태 Anthropic, 프롬프트 캐싱 기능 발표 Claude 3.5 Sonnet 및 Claude 3 Haiku 모델 API에 “프롬프트 캐싱”이라는 새로운 기능을 발표 프롬프트 캐싱은 AI가 이전에 처리했던 정보를 기억해 두고, 비슷한 요청이 있을 때 다시 사용하는 기능 프롬프트 캐싱 기능을 사용하면 AI의 응답이 빨라지고, 토큰 당 사용되는 비용도 감소 주요 활용처 대화형 에이전트: 긴 지시 사항이나 업로드된 문서가 있는 확장된 대화에서 비용과 지연 시간을 줄입니다. 코딩 어시스턴트: 코드베이스의 요약 버전을 프롬프트에 유지하여 자동완성 및 코드베이스 Q&A 성능을 향상시킵니다. 대용량 문서 처리: 이미지를 포함한 장문의 자료를 프롬프트에 통합하면서 응답 지연 시간을 증가시키지 않습니다. 상세한 지침 세트: Claude의 응답을 미세 조정하기 위해 광범위한 지침, 절차 및 예제를 공유합니다. 개발자는 종종 프롬프트에 몇 가지 예제를 포함하지만, 프롬프트 캐싱을 사용하면 수십 가지의 다양한 고품질 예제를 포함시켜 더 나은 성능을 얻을 수 있습니다. 에이전트 검색 및 도구 사용: 각 단계에서 새로운 API 호출이 필요한 여러 번의 도구 호출 및 반복적인 변경이 포함된 시나리오에서 성능을 향상시킵니다. 책, 논문, 문서, 팟캐스트 전사본 및 기타 장문의 콘텐츠와 대화: 전체 문서들을 프롬프트에 임베드하여 사용자들이 질문할 수 있도록 하여 지식 기반을 활성화합니다. 현재 노션에서 해당 기능을 사용하고 있음
  • 주상원
[240812] Runway(Gen3-alpha), Alibaba(Qwen2-math), Figure 02 Robot, ChatGPT Advanced Voice Mode 공개, OpenAI Safety, Reddit AI Search, Anysphere Fundrase
Runway, Image-to-video model Gen3-Alpha 공개 이미지와 프롬프트를 입력하면, 이미지를 첫장면 혹은 마지막 장면이 되는 영상 생성 Qwen2-Math Closed Model보다도 높은 성능을 보이는 수학특화 open-weight model 공개 72B Instruct 모델 기준으로 GPT-4o, Claude 3.5 sonnet보다도 높은 성능을 보여줌 Qwen2 LLM을 기반으로한 pre-train 모델과 Instruct 모델 공개 Qwen2-Math / Qwen2-math-Instruct-1.5B, 7B, 72B 공개 https://qwenlm.github.io/blog/qwen2-math/ Figure O2 Robot On-board VLM이 탑재되어 있어 시각정보를 분석하고 행동함 https://youtu.be/0SRVJaOg9Co?feature=shared OpenAI, ChatGPT Advanced Voice Mode 공개 OpenAI의 지난 Spring Update에서 발표되었던 음성 기능, 'Advanced Voice Mode'가 일부 유료 구독자 앞으로 공개 'Advanced Voice Mode'를 사용해본 들의 사례 OpenAI, AI Safety
  • 주상원
[240722] OpenAI(5 level to AGI, Strawberry Project, GPT-4o-mini), Eureka Labs, Claud Android App, Gemini Android, Google Vids, Mistral Codestral Mamba
OpenAI, AGI로가는 5단계 제시 OpenAI에서 AGI로 가는 5단계의 기준을 제시하며, 현재는 level 2에 근접한 상태라고 밝힘. 10년 내에 level 5에 도달할 것으로 예상 level 구분 설명 level 1 대화형 AI (Conversational AI) 현재 ChatGPT와 같이 인간과 자연스럽게 대화할 수 있는 수준 level 2 추론 AI (Reasoning AI) 박사 수준의 교육을 받은 사람처럼 외부 도구 없이 기본적인 문제 해결이 가능한 단계 level 3 자율 AI (Autonomous AI) 3단계 : 자율 AI (Autonomous AI): 사용자를 대신해 며칠간 자율적으로 작업을 수행할 수 있는 "에이전트" level 4 혁신 AI (Innovating AI) 독립적으로 혁신을 만들어낼 수 있는 "혁신자" 단계
  • 주상원
Made with SlashPage