AI Speed Box

AI 뉴스와 정보 링크 모음 ( 민트베어의 무지성 SNS 스크랩, 숙성시켜 Visual AI News가 됩니다.)
2025 AI 시대의 인간지능 컨퍼런스
  1. AI
2025년 1월 12일 일요일, 민트베어가 참여하는 인간지능 컨퍼런스에 함께해주세요. 강남 슈피겐홀
https://smartstore.naver.com/lolomall/products/11207388755
2025/01/12
Limited Release (일부 공개)
Voice Cursor
  1. AI Sound
  1. ETC sound
Gemini 에서 수동 프롬프트로 감정을 담은 더빙을 사용 중이었는데, 이것을 자동화하는 코드가 공개되었네요.
https://twitter.com/trudypainter/status/1870230202703589758
https://github.com/googlecreativelab/gemini-demos/tree/main/voice-cursor
http://localhost:3000/
2024/12/22
Available Now (사용 가능)
포토샵(베타) 새기능 : Select Body Parts
  1. AI Image
  1. Adobe Photoshop
포토샵의 새로운 기능인 “Select Body Parts”는 개체선택(Object Selection) 도구의 업그레이드 기능으로, 인공지능을 활용하여 사람의 신체 부위를 쉽게 선택할 수 있게 해줍니다. 포토샵(베타)에서 업데이트 하고 사용하세요.
https://youtu.be/Dxk-qlxUJTg?si=zjRIuuLCJmDHxRHe
https://www.threads.net/@abraham_slothero/post/DDwHpEwTvNL?xmt=AQGzQb9dwh1KFNnIfN5N2vD6Lc-Dww4SMq4sK7ia9I2NSw
https://helpx.adobe.com/kr/photoshop/using/photoshop-beta-desktop-app.html
2024/12/19
Available Now (사용 가능)
제보 : AIBRAHAM
Kling 1.6
  1. AI Video
  1. Kling
KLING AI 1.6 업데이트 : 프롬프트 대응성 개선, 더 일관적이고 역동적인 결과 / 표준 및 프로페셔널 모드를 지원하며, KLING 1.5 모델 대비 전체적으로 195% 향상된 성능을 제공. / 프롬프트 대응성 향상: 동작, 순차적인 움직임 / 카메라 움직임 등에 대한 프롬프트 반응 개선 및 시작 프레임에 없던 요소 생성 능력 강화. 카메라 무브 및 모션브러시 미작동 -- Sora와 VEO2 출시와 함께 모든 비디오 생성 도구들이 바짝 긴장하는 듯하네요.
https://klingai.com/release-notes
https://twitter.com/Kling_ai/status/1869599147046871488
https://klingai.com
2024/12/19
Available Now (사용 가능)
Ideogram Batch Generation
  1. AI Image
  1. Ideogram
https://twitter.com/ideogram_ai/status/1869074020131287443?s=46
2024/12/18
Available Now (사용 가능)
Midjourney Office Hours (2024-12-18)
  1. AI Image
  1. Midjourney
최근 업데이트 Patchwork, Moodboards, Profile / v7 2025년 1월 예정 / 대량 이미지 생성 가능한 Batch 8 준비중.
https://twitter.com/blackowl777/status/1869499353045324127
2024/12/18
Coming Soon (출시 예정)
Veo 2
  1. AI Video
  1. _Google
4K... ㄷㄷ
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/
https://labs.google/fx/tools/whisk/unsupported-country
https://deepmind.google/technologies/veo/veo-2
2024/12/17
Coming Soon (출시 예정)
Midjourney Moodboards
  1. AI Image
  1. Midjourney
2024/12/17
Available Now (사용 가능)
Googles New AI Glasses (Android XR)
  1. AR, XR, VR
  1. _Google
구글은 삼성과 퀄컴 협력을 통해 확장현실(XR) 플랫폼인 안드로이드 XR을 발표했습니다. Gemini AI를 기반으로 헤드셋과 안경을 통해 현실을 확장하고 새로운 방식으로 탐색, 연결, 창작을 가능하게 하는 플랫폼입니다. Apple Vision Pro 와의 또 다른 대결 구도가 기대됩니다. 언제냐일 뿐, 시장의 방향은 정해져 있어요.
https://blog.google/products/android/android-xr/
2024/12/16
Coming Soon (출시 예정)
비디오 워터마크 기술, Meta Video Seal
  1. AI Video
  1. _Meta
메타(Meta)가 새로운 워터마크 기술 "Meta Video Seal"을 공개했습니다. 이 기술은 영상에 보이지 않는 워터마크를 삽입해, 저작권 보호와 출처 추적을 가능하게 합니다. 이 워터마크는 영상이 흐려지거나 잘리더라도 유지되며, 압축 과정을 거쳐도 손상되지 않습니다. 필요할 경우 특수 도구를 사용해 워터마크를 추출하고, 영상의 출처를 쉽게 확인할 수 있습니다.
https://aidemos.meta.com/videoseal
https://github.com/facebookresearch/videoseal
https://news.abplive.com/technology/meta-new-open-source-tool-video-seal-watermark-ai-generated-videos-what-we-know-1737694
2024/12/15
Available Now (사용 가능)
Pika 2.0 업데이트
  1. AI Video
  1. Pika
AI 비디오 생성 도구 Pika 2.0 이 출시 되었습니다. 피카 2.0 버전 및 상업적 이용은 Pro Plan($35)에서만 사용 가능합니다. 다양한 템플릿과 Scene Ingredients 조합으로 다양한 스타일의 비디오를 쉽게 제작할 수 있게 되었네요. 프롬프트가 결과물에 더 정확히 반영되는 듯 합니다.
https://pika.art
https://pika.art/pricing?interval=month
2024/12/15
Available Now (사용 가능)
Motivo by Meta
  1. AI 3D
  1. _Meta
메타 모티보는 디지털 아바타의 전신 동작을 자연스럽게 제어하는 AI 모델로, 메타버스와 VR 환경에서 인간다운 움직임과 상호작용을 구현합니다. 비지도 강화학습과 혁신적 알고리즘을 통해 추가 훈련 없이 다양한 작업 수행이 가능하며, 환경 변화에도 높은 적응력을 제공합니다. 메타버스, 게임, VR 등에서 몰입감과 현실감을 크게 높일 기술입니다.
https://metamotivo.metademolab.com/
https://metamotivo.metademolab.com/demo
2024/12/15
Available Now (사용 가능)
Leffa by Meta
  1. AI Image
  1. _Meta
메타(Meta)에서 사람 이미지의 가상 피팅과 포즈를 제어할 수 있는 AI 이미지 생성 기술 “Leffa”를 발표했습니다. 이 프레임워크는 사람 이미지 생성에 특화되어 있으며, 주요 기능으로는 1️⃣ 가상으로 옷을 갈아입힐 수 있는 [가상 피팅]과 2️⃣생성된 인물의 자세를 변경할 수 있는 [포즈 제어]가 있습니다. Leffa는 생성된 이미지의 외모와 자세를 세밀하게 조절할 수 있는 정밀한 제어 기능을 제공하며, 오픈 소스로 공개되어 누구나 사용할 수 있습니다. --- 테스트 결과, [가상 피팅]은 대체로 상의만 반영 되고, [포즈 제어]에서는 얼굴이 이그러지는 편입니다. 불완전.
https://huggingface.co/spaces/franciszzj/Leffa
https://github.com/franciszzj/Leffa
2024/12/14
Available Now (사용 가능)
The Gemini 2.0
  1. AI LLM
  1. Genmini
(출시예정) 구글이 최신 AI 모델인 Gemini 2.0을 발표했습니다. 향상된 멀티모달 기능으로 텍스트, 이미지, 동영상, 오디오 등 다양한 입력 데이터를 처리할 수 있습니다. 네이티브 이미지 생성 및 조절 가능한 텍스트-음성 변환(TTS) 기능이 추가되었습니다.

대화로 이미지를 편집할 수 있어요. 정말 미친 기능...
https://x.com/GoogleDeepMind/status/1867261817791427026
https://gemini.google.com/app
https://aistudio.google.com/u/1/prompts/new_chat
2024/12/13
Limited Release (일부 공개)
Krea Editor Updates
  1. AI Image
  1. Krea
https://twitter.com/krea_ai/status/1869797280905339235
https://www.krea.ai
2024/12/13
트렐리스 Trellis 3D
  1. AI 3D
  1. 3D
정교한 형태와 텍스처 세부 사항을 갖춘 다양한 3D 에셋을 생성하는 TRELLIS. Radiance Fields, 3D Gaussians, 메시 등 다양한 최종 3D 표현을 생성할 수 있습니다.
https://trellis3d.github.io/
2024/12/12
Available Now (사용 가능)
Rodin
  1. AI 3D
  1. ETC
강력한 3D 생성 AI : Rodin, 8K로 업그레이드. Format Converter, OmniCraft!

다양한 기능 탑재와 퀄리티가 더 좋아졌지만, 유료 도구입니다.
https://hyper3d.ai/
2024/12/12
Available Now (사용 가능)
Midjourney Patchwork
  1. AI Image
  1. Midjourney
미드저니 패치워크는 협업과 AI 지원을 지원하는 무한 캔버스로, 우리 상상 속의 세계를 보다 쉽게 시각화하고 발전시킬 수 있는 도구입니다. 먼저 다음과 같은 컨셉추얼한 용어들이 도입되었습니다. : 스토리 월드, 샌드박스, 캔버스, 로비, 포털, 스크랩 / 또 다음과 같은 같은 다양한 기능 용어들이 추가되었습니다. : 툴박스, 액션바, 페인트, 텔미모어, 개더, 스타일 레퍼런스, 카피 앤 인벤토리, 세이브, 셰어
https://x.com/midjourney/status/1866964271948763553
2024/12/12
Available Now (사용 가능)
DiffSensei
  1. AI Toons
  1. ETC toons
DiffSensei는 텍스트와 캐릭터 이미지를 바탕으로 복잡한 장면의 만화 패널을 생성합니다. 여러 패널에 걸쳐 일관된 아트 스타일과 캐릭터 외모를 유지
https://jianzongwu.github.io/projects/diffsensei/
https://www.perplexity.ai/search/diffsensei-bridging-multi-moda-0JWTZfgaR.6DBEtAE4thNA
https://arxiv.org/html/2412.07589v1
2024/12/11
Available Now (사용 가능)
MMAudio : Video-to-Audio Synthesis
  1. AI Sound
  1. ETC sound
비디오와 텍스트 입력으로 동기화된 오디오를 생성하는 AI. 프레임 단위로 동기화를 조정하는 조건부 동기화 모듈.
https://github.com/hkchengrex/MMAudio?tab=readme-ov-file
https://github.com/hkchengrex/MMAudio/releases/download/v0.1/mmaudio.pdf
https://www.perplexity.ai/search/mmaudio-taming-multimodal-join-SUGxz7aISQG_jTC7XL5Dtg
2024/12/11
Available Now (사용 가능)
Sora v2 showing in London
  1. AI Video
  1. Sora
런던 C21Media Keynote 행사에서 Sora 영상이 시연되었네요. 아주 사실적인 영상과 정말 완벽하게 유지 되는 캐릭터의 일관성이 놀랍습니다.
https://twitter.com/RuudNL/status/1865425438991945938
https://twitter.com/TheoMediaAI/status/1865772054194037057
2024/12/09
Available Now (사용 가능)
Leonardo - FlowState
  1. AI Image
  1. Leonardo
레오나르도에서 다른 이미지에서 스타일을 유사하게 생성하는 Flow State 를 업데이트 했습니다. [More Like This] 버트늘 사용할 수 있습니다. 무료 사용자는 일일 사용 제한이 있습니다. FlowState는 임시 탭으로, 저장하거나 업스케일하는 이미지 외에는 사용 후 사라집니다.
https://app.leonardo.ai/
https://intercom.help/leonardo-ai/en/articles/10002805-flow-state
https://www.youtube.com/watch?v=N07oo7C5wpQ
2024/12/07
Available Now (사용 가능)
ElevenLabs _ Conversational AI
  1. AI Sound
  1. ElevenLabs
https://elevenlabs.io/conversational-ai?utm_source=twitter&utm_medium=organic_social&utm_campaign=conv_ai_launch
https://elevenlabs.io/docs/conversational-ai/docs/introduction
2024/12/06
Coming Soon (출시 예정)
Open AI, 12일간의 라이브
  1. AI
  1. OpenAI
  2. OpenAI o1
  3. Sora
OpenAI, 12일간 매일 라이브 공개, 혹시 Sora 공개?
https://x.com/sama/status/1864335461268754712
2024/12/05
Limited Release (일부 공개)
Google DeepMind just dropped Genie 2
  1. AI Video
Google DeepMind가 방금 (게임 월드 시뮬레이터) Genie 2를 출시했습니다. AI는 이제 단 하나의 이미지나 텍스트로부터 다양하고 대화형 3D 세계를 창조할 수 있습니다.
https://x.com/minchoi/status/1864439424794198291
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
2024/12/05
Available Now (사용 가능)
Swift-Edit
  1. AI Image
  1. ETC Image
빠른 속도로 이미지 재구성, 캐릭터 일관성 유지.
https://swift-edit.github.io/
https://www.perplexity.ai/search/swiftedit-lightning-fast-text-EUwXW7i4TgKMCUMwV0iHNw
2024/12/05
Available Now (사용 가능)
Midjourney Office Hours (2024-12-04)
  1. AI Image
  1. Midjourney
2025년 1월 V7 출시 예정. 비디오 출시 지연 예상ㅜ.ㅜ 스토리텔링도 지연. 무드보드 : 이미지 세트로 개인화 적용 예정.
https://x.com/blackowl777/status/1864496878114558025
2024/12/04
Coming Soon (출시 예정)
Gen3 KeyFraming (Prototype)
  1. AI Video
  1. Gen-3
빈 캔버스에서 이미지와 비디오를 유기적으로 생성하는 기능 예고
https://runwayml.com/research/creativity-as-search-mapping-latent-space
2024/12/03
Coming Soon (출시 예정)
Hunyuan Video by Tencent
  1. AI Video
  2. AI Sound
  1. Hunyuan
텐센트는 2024.12.03 훈위안 비디오(Hunyuan Video)를 출시했습니다. 강력한 오픈소스 비디오 생성 AI 모델입니다.
https://aivideo.hunyuan.tencent.com
https://huggingface.co/tencent/HunyuanVideo/discussions
https://slashpage.com/mintbear/Hunyuan-01-intro
2024/12/03
Available Now (사용 가능)
Motion Prompting (Google DeepMind)
  1. AI Video
  1. _Google
(출시예정) 이제 텍스트 프롬프트를 넘어, 마우스 동작으로 비디오를 정밀하게 제어하는 시대가 열립니다. 구글 딥마인드의 '모션 프롬프팅' 기술은 비디오에 원하는 움직임을 쉽게 추가하고 제어할 수 있습니다. 이 기술은 전문적인 비디오 편집 지식이 없어도 누구나 자연스럽고 역동적인 비디오를 만들 수 있게 해줍니다. 텍스트 프롬프트를 몰라도, 직관적으로 비디오를 변형 제작할 수 있는 거죠.
https://motion-prompting.github.io/
https://arxiv.org/abs/2412.02700
https://arxiv.org/pdf/2412.02700
2024/12/03
Coming Soon (출시 예정)
© 2024.07 mintbear. All Rights Reserved.

Midjourney Office Hours (2024-12-18)

Category
  1. AI Image
Gen
  1. Midjourney
Date
2024/12/18
Summary 🍀🧸
최근 업데이트 Patchwork, Moodboards, Profile / v7 2025년 1월 예정 / 대량 이미지 생성 가능한 Batch 8 준비중.
URL
https://twitter.com/blackowl777/status/1869499353045324127
Release
Coming Soon (출시 예정)

Midjourney Office Hours (2024-12-18)

참고)
미드저니에서 대량 이미지 생성하는 Batch 를 제공한다고 하는데, 마침 Ideogram 에서 BatchGeneration을 공개했습니다.

Original

Midjourney Office Hours 2024-12-18
(Source: JamesGriffing
https://discord.com/channels/662267976984297473/1037743153471553618/1319048499441958982)
Recent Feature Releases
Mood boards and multiple personalization profiles have been released
Encouragement to use custom models for improved results over baseline models
Introduction of an experimental research feature called "network" for world-building and storytelling exploration
Future Sharing and Exploration Tools
Plans to enhance exploration of S-REFs and mood boards for broader community sharing
A long-term goal: enable aesthetic exploration beyond all prior human history
Desire to coordinate community creativity to achieve an "aesthetic singularity"
Upcoming Batch Image Features
Consideration of "batch 8" features to manage and manipulate larger sets of images
Prioritization of mood board sharing before batch features
Ongoing debate on image resolution versus batch size optimization
Version 7 (V7) Model Development
V7 training is ongoing and may be ready by end of January
Focus of V7 is on character consistency and improved character references
Potential enhancements for style references, object references, and character-based storytelling
Exploration of optimal resolution, batch sizes, and upscaling strategies
After V7 release, plan to quickly iterate with follow-up models (e.g., 7.1) and more frequent updates
Emphasis on decoupling architecture, data, and scaling releases to achieve a steady, frequent release cadence
Video Model Considerations
Current video models show mixed results
Trade-offs between quality, speed, and cost remain challenging
Plans to release some video functionality by January to gauge community interest
Evaluating whether to develop in-house video models, partner with third parties, or offer multiple options
Acknowledgment that high-quality video models may not be cost-effective yet
World-Building and Interactive Features
Long-term interest in world-building, storytelling, and immersive experiences
Possibility of future "walk-around" or real-time interactive features
Exploration of comic book-like storytelling and multiple character integration scenarios
Infrastructure and Server Capacity
Current surplus of server capacity due to early hardware arrivals
Introduction of a "holiday relaxathon" period to provide relaxed mode to all users
Intention to reduce or remove relax mode wait times, enabling near-unlimited image creation
Use of this period to gather data on server usage and community interest in high-volume generation
Emphasis on Fundamentals and Ongoing Improvement
Recognition that many users primarily use basic features rather than advanced tools
Commitment to improving core aspects: speed, resolution, quality, and prompt comprehension
Efforts to maintain a balance between new feature innovation and refining the basics
Aesthetics and Beauty in Model Output
Pursuit of models that not only produce realistic results but also more beautiful images
Continued encouragement for users to personalize models for better aesthetic outcomes
Plans to develop methods to improve overall visual appeal and engage more deeply with design aspects
Data, Scaling, and Release Cadence for 2025
New approach to model versioning to ensure more frequent and focused updates
Multiple planned models following V7 will incorporate different improvements (data, scaling, architecture)
Goal to continually learn from community feedback and usage patterns to guide future directions

번역문

미드저니 오피스아워: 2024년 12월 18일

최근 기능 업데이트

무드보드와 여러 개인화 프로필 기능 출시
맞춤형 모델 사용 권장
네트워크 기능 도입으로 세계 구축 및 스토리텔링 탐험 지원 : Patchwork

미래 공유 및 탐험 도구

S-REFs와 무드보드 커뮤니티 공유 기능 확장 계획
미적 탐험을 인류 역사 너머로 확장
커뮤니티 창의력 결집으로 미적 특이점 달성 목표

대량 이미지 관련 기능

Batch 8 기능으로 대량 이미지 관리와 조작 검토
무드보드 공유를 우선 추진
해상도와 배치 크기 최적화 논의

V7 모델 개발

V7 훈련 진행 중, 1월 말 출시 가능성
캐릭터 일관성과 참조 개선
스타일 및 오브젝트 참조 강화
해상도, 배치 크기, 업스케일링 최적화 검토
빠른 후속 모델 출시 및 지속적 업데이트 계획

비디오 모델

현재 비디오 모델 품질은 혼재된 상태
품질, 속도, 비용 간의 트레이드오프 문제
일부 비디오 기능 1월 출시 계획
자체 개발, 외부 협력, 다중 옵션 제공 검토
고품질 비디오 모델의 비용 효율성 부족

세계 구축 및 인터랙티브 기능

세계 구축, 스토리텔링, 몰입형 경험 장기적 관심
실시간 인터랙션 기능 가능성 탐구
만화책 스타일 스토리텔링과 다중 캐릭터 통합 시도

인프라 및 서버 용량

서버 용량 여유 확보
모든 사용자에게 릴랙스 모드 제공
릴랙스 모드 대기 시간 제거 또는 감소
서버 사용 데이터와 고용량 생성 관심도 분석

기본 요소와 지속적 개선

속도, 해상도, 품질, 프롬프트 이해도 개선
기본 기능 정교화와 새로운 기능 혁신 균형 유지

모델 출력의 미학

현실감과 아름다움을 모두 충족하는 이미지 모델 추구
모델 개인화를 통한 미적 결과 개선
시각적 매력을 높이고 디자인 요소 탐구

2025년 데이터, 확장, 출시 주기

더 자주, 초점을 맞춘 업데이트를 위한 새로운 접근법
데이터, 스케일링, 아키텍처 개선 사항 통합
커뮤니티 피드백과 사용 패턴을 바탕으로 방향 조정
👍