Sign In

롯데 AI 기술블로그

[DevLog] 긴 영상도 이해하는 AI, 'Clip AI' 개발기 (feat. Qwen3-Omni & Whisper)
[DevLog] 긴 영상도 이해하는 AI, 'Clip AI' 개발기 (feat. Qwen3-Omni & Whisper) 안녕하세요. 최근 개발한 동영상 분석 및 문제 생성 서비스 'Clip AI'의 개발 과정을 공유합니다. 단순히 영상을 요약하는 것을 넘어, "이 내용이 영상의 정확히 어디에 나오는데?"라는 질문에 답할 수 있도록 근거 타임스탬프(Timestamp)를 함께 제공하는 것이 이 프로젝트의 핵심 목표였습니다. 최신 멀티모달 모델인 Qwen3-Omni와 Whisper를 활용한 파이프라인 구축 경험, 그리고 vLLM 서빙 과정에서 겪었던 시행착오를 정리했습니다. 🔗 서비스 바로가기: https://clipai.loclx.io 1. 왜 만들었나?: 할루시네이션 없는 근거 제시 생성형 AI로 영상을 요약할 때 가장 큰 문제는 '그럴듯한 거짓말(Hallucination)'입니다. 요약된 내용이 실제 영상에 존재하는지 검증하려면 사용자가 다시 영상을 처음부터 봐야 하는 번거로움이 있습니다. Clip AI는 이 문제를 해결하기 위해 다음 기능을 구현했습니다. 🎥 영상 & 음성 동시 분석: 시각 정보와 청각 정보를 모두 활용 ⏱️ 정밀한 타임스탬프: 요약 및 문제 정답이 영상의 몇 분 몇 초에 근거하는지 명시 🎬 긴 영상 지원: 최대 1시간 30분 분량의 장시간 동영상도 안정적으로 분석 가능 Clip AI의 메인 대시보드입니다. 우측 패널에서 요약, 문제와 함께 클릭 가능한 타임스탬프를 제공합니다. 2. 단일 모델의 한계와 하이브리드 파이프라인으로의 전환 처음부터 현재의 복잡한 파이프라인을 구상한 것은 아니었습니다. 개발 초기에는 최신 멀티모달 모델인 Qwen3-Omni의 강력한 성능을 믿고, 단일 모델로 모든 것을 해결하려 시도했습니다. 초기 접근 방식: "이 비디오 전체를 보고 내용을 요약해줘. 그리고 그 내용이 나오는 정확한 타임스탬프도 같이 적어줘."
  • 김원철
1
👍
5
Large Language Diffusion Models
개요 안녕하세요, Diffusion Model을 활용한 언어 모델링에 관심이 있는 주엽입니다. 이번 포스트에서는 상용 Language Diffusion Model의 첫걸음이 될지도 모르는 Large Language Diffusion Models에 대해서 리뷰해 보려고 합니다. 포스트 세 줄 요약 Large Language Diffusion Models는 NeurIPS 2025에 Oral로 게재 승인이 된 논문으로, Diffusion Model을 활용한 언어 모델인 LLaDA(Large Language Diffusion with mAsking)를 다룹니다. LLaDA는 LLM의 프레임워크 내에서 Diffusion Model의 이론을 적용시켰을 뿐 아니라 Scalability, In-context Learning 등 중요한 요소까지 갖추었습니다. Autoregressive 기반 LLM과 경쟁할 수 있을 만한 성능을 보였으며 특히 Reversal Poem Completion 작업에 대해 GPT-4o를 뛰어넘는 성능을 보였습니다. 참고 해당 포스트는 약간의 Inline 수식을 포함하고 있습니다. 해당 블로그 플랫폼에서는 이를 지원하지 않지만, 수식임을 알리기 위해 수정하지 않고 두었습니다. 수식을 그대로 보고 싶은 분들은 원본 노션 페이지를 참고해 주시기 바랍니다. Diffusion Models 먼저 Diffusion Model에 대해 간단히 소개하는 시간을 가질까 합니다. Diffusion Model은 두 가지 과정을 포함하는데요, 위 이미지가 이를 잘 나타내고 있습니다. Forward Process: 데이터에 잡음(Noise)을 추가하는 과정입니다. 위 이미지에서 오른쪽으로 갈수록 고양이가 흐려지는데, 바로 이 과정과 같습니다. 이 과정을 반복하면 결국에는 아무 형체도 알아볼 수 없는 깨끗한 잡음(Pure Noise)으로 수렴합니다. Reverse Process: 데이터에서 잡음을 제거하는 과정입니다. 위 이미지에서 왼쪽으로 갈수록 잡음이 없어지고 깨끗한 고양이가 되는데, 바로 이 과정과 같습니다. 이 과정을 반복하면 깨끗한 잡음에서 원래의 데이터를 복원할 수 있습니다. 학습을 마친 Diffusion Model이 하는 일은 바로 Reverse Process라고 생각해 주시면 되겠습니다. 즉, 아무 의미를 가지지 않은 깨끗한 잡음으로부터 잡음을 조금씩 제거하면서 최종적으로 데이터를 생성하는 것입니다. 생성 모델 이 포스트를 보시는 분들께서는 Stable Diffusion에 대해 들어보았을 것이라 생각합니다. Stable Diffusion은 이미지를 생성하는 AI인 만큼, Diffusion Model은 이미지 생성형 AI로 많이 알려져 있습니다. 하지만 Diffusion Model은 확률적 생성 모델(Probabilistic Generative Model)의 한 종류로, 유클리드 공간에서 하나의 포인트로 표현할 수 있는 모든 데이터를 생성 가능합니다. 즉, 다시 말해 이미지뿐 아니라 텍스트, 영상, 음성 등도 생성할 수 있습니다. 그렇다면 생성 모델은 무엇일까요? 현재 생성형 AI라는 표현은 대부분 GPT와 같은 LLM을 지칭하고는 합니다. 하지만 통계적인 관점에서 생성 모델은 다음을 나타냅니다. Generative models capture the joint probability $p(x, y)$, or just $p(x)$ if there are no labels. 즉, 다시 말해 생성 모델은 데이터 분포(대부분의 경우 결합 확률 분포)를 모델링하는 모델이라고 생각할 수 있습니다. 단, 생성 모델은 회귀나 분류 같은 지도 학습 모델보다 훨씬 더 어렵습니다. 위 이미지로 생성 모델과 판별 모델(분류 모델 등)의 차이를 알 수 있습니다. $x$가 이미지, $y$가 정답 라벨이라고 생각해 보겠습니다.
  • 주엽
1
👍❤️😀
4
Context Engineering과 Memory에 대하여
Context Engineering / Memory 최근 에이전트 시스템에서 메모리의 중요성이 크게 부각되면서 이를 체계적으로 이해하고 적용하기 위해 내용을 정리했습니다. 구글의 Context Engineering: Sessions, Memory 백서를 비롯해 다양한 에이전트 프레임워크 문서와 관련 연구들을 참고하여, 최근 여러 서비스와 기술 행사에서 핵심 주제로 다뤄지고 있는 메모리 개념을 정리했습니다. 백서의 구조를 기반으로 주요 개념들을 재구성해 Context Engineering 관점에서 정리한 내용입니다. 1. Context Engineering 컨텍스트 엔지니어링은 단순히 시스템 프롬프트를 잘 작성하는 수준을 넘어, 모델 호출마다 필요한 정보 전체(payload)를 동적으로 구성하는 과정을 의미. 1.1 컨텍스트 엔지니어링이란 기본적으로 Prompt Engineering이 *"좋은 지침을 어떻게 기술할 것인가"*에 집중했다면, Context Engineering은 "모델 호출 시 주입되는 전체 정보(컨텍스트)를 어떻게 구성·관리할 것인가" 에 초점을 맞춘 더 상위적 개념입니다. 컨텍스트 엔지니어링의 목표는 모델이 작업을 완료하는 데 가장 관련성이 높은 정보를 필요한 만큼만 갖도록 하는 것입니다. 단순히 프롬프트 문장을 잘 쓰는 것을 넘어서, 시스템 프롬프트, 외부 지식, 대화 히스토리, 도구 출력 등 모델이 현재의 작업을 잘 수행하도록 필요한 모든 페이로드(payload)를 동적으로 설계하고 조정하는 것을 의미합니다. 1.2 구성 요소 및 계층 여기에는 다음 세 계층의 정보가 포함됩니다: Reasoning Context: 시스템 지침, 툴 정의, few-shot 예시 등 모델의 사고 방식과 행동 범위를 규정하는 정보 Evidential & Factual Data: 장기 메모리, 외부 지식(RAG), 다른 에이전트/도구의 출력 등 모델의 근거가 되는 정보 Immediate Conversation Context: 현재 대화, 최근 이벤트, 임시 상태(scratchpad) 등 즉시 필요한 정보 2. Memory란 무엇인가 메모리는 raw한 로그에서 유의미한 정보만을 추출, 정제, 통합하여 장기적으로 유지되는 지식 단위 요약 Session vs Memory 항목 Session Memory 정의
  • 신승민
1
🥰👍
2
'음성 인식 & 합성' 2025.11.05 AI 기술 세미나 자료 및 영상 공유
요즘 AI 컨텐츠 생성에 필수인 음성 AI ! 회의, 강의 녹음 후 전사 유튭 영상 나래이션 생성 어려운 자료 넣고 팟캐스트 생성 일상에 녹아든 음성 AI, 우리 회사에서는 어떻게 구현하고 있을까요? AI 엔지니어에게 직접 듣는 진짜 음성 AI 이야기! 영상 다시보기: https://www.youtube.com/live/nntfFtCY3XQ?t=510s 자료:
  • 레모나
❤️👏👍
4
2025년 인공지능 말평 경진대회 금상 후기
HELLO👋 안녕하세요! 롯데이노베이트 AI 기술팀 언어 AI 담당 이기훈, 유용상, 임형준입니다. 저희는 최근에 참여한 2025년 인공지능 말평에서 우수한 성과를 거두게 되어 그 경험과 성과를 여러분과 공유하고자 이 포스트를 작성하게 되었습니다!! 대회 개요 대회명 2025년 인공지능 말평 진행기간 2025.06.11 ~ 2024.10.17 주최사 국립국어원 개최 목표 한국어 어문 규범 기반 생성(RAG): 제시한 문제에서 문장을 교정하고 그 이유를 어문 규범에 근거하여 생성하는 과제 한국문화 질의응답: 한국의 역사, 사회, 전통문화 등 한국문화에 대한 객관식 주간식 문제에 답하는 과제 기사 및 수상자 선정 링크 https://www.news1.kr/life-culture/book/5811168 https://kli.korean.go.kr/benchmark/taskBoardsOrdtm/boardsOrdtm/noticeView.do?page=0&recordId=465&boardOrdtmId=&base.condition=boardOrdtm.title&base.keyword=&size=10
  • 통통한아이멤버
1
👍😍
5
RAG는 어떻게 동작할까? 기본 원리와 두 가지 구현 비교
오늘은 RAG(Retrieval-Augmented Generation) 에 대해 개념을 잡고, 이 아이디어가 처음 제안된 2020년 Facebook AI Research의 논문을 간단히 살펴보려 합니다. 구체적으로는, RAG가 등장하게 된 배경과 기본 개념 원 논문 [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks]의 핵심 아이디어 그리고 이를 실제로 구현해본 간단한 실습 예제 (LangChain 기반 / No-LangChain 구현) 까지 다루어 보겠습니다. 1. RAG란? Retrieval-Augmented Generation (RAG)는 기존의 언어 모델이 가지고 있는 한계 — 예를 들어, 최신 정보 부족, 외부 지식 반영 어려움 등 — 을 극복하기 위해 등장한 방법입니다. RAG는 말 그대로, 👉 검색(Retrieval) + 생성(Generation) 과정을 결합한 방식입니다. 🔍 검색기(Retriever) 가 외부 문서(knowledge base)에서 관련 정보를 찾아오고, ✍️ 생성기(Generator) 가 그 정보를 바탕으로 자연어 응답을 생성합니다. 즉, 최신 뉴스나 특정 전문 지식을 묻는 질문에 대해, 단순히 내장된 파라미터만 사용하는 것이 아니라, 관련 문서를 찾아본 후 그 내용을 바탕으로 답을 생성하는 것이죠. 2. 📖 RAG는 언제, 어디서 제안되었을까? RAG라는 개념은 2020년, Facebook AI Research (FAIR) 팀의 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 에서 처음 공식적으로 제안되었습니다.
  • 스탑원
👍😀
3
AI 서비스에서 docker를 사용해야 하는 이유
도커는 컨테이너를 이용하여 애플리케이션의 개발, 실행, 배포를 단순화할 수 있도록 도와주는 플랫폼입니다. 이 글에서는 도커의 주요 장점을 살펴보며, 왜 우리가 도커를 사용해야 하는지 알아보겠습니다. 프로그램의 격리 대부분의 프로그램은 단독으로 실행되지 않고, 특정한 실행 환경·라이브러리·다른 프로그램에 의존하여 동작합니다. 예를 들어, 하나의 물리적 서버에서 Django와 FastAPI를 동시에 구동한다고 가정해 보겠습니다. 두 프레임워크가 서로 다른 파이썬 버전을 요구한다면 충돌 문제가 발생할 수 있습니다. 이를 방지하기 위해 도커는 컨테이너 기술을 도입했습니다. 컨테이너는 서로 격리된 환경을 제공하여 프로그램 간 충돌을 막고, 여러 애플리케이션이 동일한 서버에서 동시에 실행되더라도 안정적으로 동작할 수 있도록 합니다. 가상머신에 비해 가벼운 컨테이너 방식 도커 컨테이너가 등장하기 이전에는, 하나의 물리적 서버에서 여러 환경을 제공하기 위해 주로 가상 머신이 사용되었습니다. 그러나 가상 머신은 각 환경을 구현하기 위해 하드웨어를 가상화하고 운영체제까지 별도로 구동해야 하므로, 컨테이너 방식에 비해 상대적으로 무겁고 비효율적이라는 단점이 있었습니다. 반면, 도커는 별도의 운영체제를 구동하지 않고 도커 엔진을 통해 호스트의 리눅스 커널을 공유하기 때문에, 각 컨테이너가 가볍고 빠르게 실행된다는 특징이 있습니다. 이미지 도커에서는 이미지를 기반으로 동일한 환경의 컨테이너를 손쉽게 생성할 수 있습니다. 또한, 도커 허브를 통해 다른 사람이 만들어둔 이미지를 활용하거나, 직접 만든 이미지를 공유할 수도 있습니다. 이러한 특성 덕분에 팀원들이 동일한 개발 환경을 손쉽게 재현할 수 있어, 협업과 배포 과정에서 큰 장점을 제공합니다 AI 서비스에서 도커의 장점 의존성 문제 해결 AI 개발환경은 파이썬 버전, 그래픽 드라이버 버전 등 다양한 의존성 문제로 인해 초기 환경 설정이 복잡하고 번거롭습니다. 그러나 Docker 컨테이너를 활용하면 미리 구성된 환경을 바로 가져와 사용할 수 있어 환경 설정에 소요되는 시간을 크게 줄일 수 있습니다. 배포 단순화 & 환경 일관성 같은 AI 모델이라도 실행 환경에 따라 결과가 달라질 수 있습니다. Docker를 사용하면 동일한 환경을 재현할 수 있어 모델 배포 시 일관성을 보장하고, 환경 차이에 따른 결과 편차를 최소화할 수 있습니다. 확장성 및 자원 효율성 AI 서비스 운영 시, 항상 모든 자원을 가동할 필요는 없습니다. Docker 컨테이너는 사용자의 요청에 따라 개수를 유연하게 조절할 수 있어 하드웨어 자원을 효율적으로 활용하고, 서비스 확장에도 유리합니다. 간단한 예시 코드 (본 예제는 윈도우 환경에서 작성되었습니다.)
  • 묵현묵
👍😀
5
자연어처리 분야 글로벌 최고 학회 'EMNLP 2025' 메인 트랙 ACCEPT! 🎉 ECO Decoding 1저자 신승민 프로 인터뷰
자연어처리 분야의 세계 최고 권위 학회 중 하나인 EMNLP(Conference on Empirical Methods in Natural Language Processing) 2025 에서 메인 트랙으로 Accept된 ECO Decoding: Entropy-Based Control for Controllability and Fluency in Controllable Dialogue Generation 논문을 작성한 1저자 신승민 프로님과의 인터뷰를 정리했습니다. Q: EMNLP 2025 Accept 축하드립니다! 논문 내용을 소개해주실 수 있을까요? 감사합니다! "에코 디코딩(ECO Decoding)"이라는 방법을 제안했어요. AI가 단순히 질문에만 답하는 게 아니라 상황에 맞게 감정을 담아서 대답하거나, 상대방에 따라 적절한 대화 전략으로 말할 수 있도록 하는 제어가능한 대화(controllable generation) 태스크가 있는데요. 이 태스크에서 기존에는 언어 모델의 확률과 제어하고 싶은 속성의 확률을 곱해서 생성했는데, 이때 고정된 상수를 사용했거든요. 제안한 방법론에서는 이 상수를 동적으로 조절할 수 있게 만들어서, 자연스러운 대화와 원하는 제어 사이의 균형을 더 잘 맞출 수 있도록 했습니다. Q: ECO Decoding의 'ECO'는 어떤 의미인가요? ECO는 "Entropy-based Control"의 줄임말이에요. E-C-O해서 에코! 엔트로피를 활용한다는 뜻입니다. Q. 오.. 엔트로피를 활용한 점이 흥미로운데요. 더 자세히 말씀해주실 수 있나요? 실험 결과를 분석하다가 문제점을 발견했어요. 제어가 필요하지 않은 부분에서 굳이 강하게 제어해서 자연스러움이 떨어지거나, 반대로 제어가 필요한 부분에서 제어가 약해지는 경우들이 있었거든요. 예를 들어, "나는 어제 영화를 봤는데 매우"라고 했을 때 다음에 올 수 있는 단어가 다양하잖아요. "재밌었다", "지루했다" 등등. 이런 경우 모델의 확률이 고르게 분포돼요. 반면 "나는 밥을 먹었다"에서 "나" 다음에는 보통 조사가 와서 특정 토큰의 확률이 높죠. 이런 확률 분포의 차이를 엔트로피로 수치화할 수 있어서 사용하게 되었습니다. Q: 제안하신 방법론에서 가장 핵심이 되는 것은 뭐라고 생각하세요? 추가적인 학습이나 모델 구조 변경 없이도 적용할 수 있다는 게 가장 큰 장점이에요. 기존의 다양한 가중치 디코딩 방식들에 엔트로피 계산만 추가하면 성능이 강건하게 향상돼요. 즉, 어떤 방법론에든 '꽂아서' 쓸 수 있는 범용적인 개선 기술이라고 할 수 있습니다.
  • 레모나
👍❤️😀😘
9
'대화형 BI 와 Text2SQL' 2025.06.11 AI 기술 세미나 자료 및 영상 공유
"이번 달 우리 팀 매출 분석해줘" 말만 하면 SQL이 뚝딱! 🤖 게다가 SQL을 실행해서 결과까지 설명해준다고!? 🚀✨ 실제 실무에서 사용되는 Text2SQL기술과, 이 기술을 활용한 대화형 BI 서비스 아키텍처까지 다 다뤄본 이번 세미나, 이번에도 뜨거운 관심을 받으며 무사히 마쳤습니다! 관심 가져주신 모든 분들 감사드리며, 앞으로도 유익한 내용 전달드리겠습니다! 영상 다시보기: https://www.youtube.com/watch?v=exlqT6miBtI 자료:
  • 레모나
👍
5
'AI Agent'의 모든 것! 2025.04.02 AI 기술 세미나 영상, 자료 공유
AI 에이전트 시대가 온다! 요즘 많이 들리는 말이죠? 'AI 에이전트'에 대해 여러가지 말이 많은 요즈음, 한 시간만에 AI에이전트가 무엇인지 제대로 보여드리기 위해 AI 기술 세미나를 2024.04.02 에 열었습니다. 당시 막 나온 핫한 🔥MCP🔥를 포함한 AI 에이전트에 대한 정의, 개요 부터 LangGraph, AutoGen, SmolAgent 프레임워크를 활용해서 직접 구현해 본 응용 사례들 까지! 내부 + 외부 약 120명 정도의 많은 분들이 세미나에 참여해주셨습니다. 아래에서 세미나 영상과 자료를 공유드리니, 앞으로 열릴 세미나에도 많은 관심 부탁드립니다 https://www.youtube.com/watch?v=ht-xSmijEWU&t=973s
  • 레모나
👍❤️
3