[DevLog] 긴 영상도 이해하는 AI, 'Clip AI' 개발기 (feat. Qwen3-Omni & Whisper)
[DevLog] 긴 영상도 이해하는 AI, 'Clip AI' 개발기 (feat. Qwen3-Omni & Whisper) 안녕하세요. 최근 개발한 동영상 분석 및 문제 생성 서비스 'Clip AI'의 개발 과정을 공유합니다. 단순히 영상을 요약하는 것을 넘어, "이 내용이 영상의 정확히 어디에 나오는데?"라는 질문에 답할 수 있도록 근거 타임스탬프(Timestamp)를 함께 제공하는 것이 이 프로젝트의 핵심 목표였습니다. 최신 멀티모달 모델인 Qwen3-Omni와 Whisper를 활용한 파이프라인 구축 경험, 그리고 vLLM 서빙 과정에서 겪었던 시행착오를 정리했습니다. 🔗 서비스 바로가기: https://clipai.loclx.io 1. 왜 만들었나?: 할루시네이션 없는 근거 제시 생성형 AI로 영상을 요약할 때 가장 큰 문제는 '그럴듯한 거짓말(Hallucination)'입니다. 요약된 내용이 실제 영상에 존재하는지 검증하려면 사용자가 다시 영상을 처음부터 봐야 하는 번거로움이 있습니다. Clip AI는 이 문제를 해결하기 위해 다음 기능을 구현했습니다. 🎥 영상 & 음성 동시 분석: 시각 정보와 청각 정보를 모두 활용 ⏱️ 정밀한 타임스탬프: 요약 및 문제 정답이 영상의 몇 분 몇 초에 근거하는지 명시 🎬 긴 영상 지원: 최대 1시간 30분 분량의 장시간 동영상도 안정적으로 분석 가능 Clip AI의 메인 대시보드입니다. 우측 패널에서 요약, 문제와 함께 클릭 가능한 타임스탬프를 제공합니다. 2. 단일 모델의 한계와 하이브리드 파이프라인으로의 전환 처음부터 현재의 복잡한 파이프라인을 구상한 것은 아니었습니다. 개발 초기에는 최신 멀티모달 모델인 Qwen3-Omni의 강력한 성능을 믿고, 단일 모델로 모든 것을 해결하려 시도했습니다. 초기 접근 방식: "이 비디오 전체를 보고 내용을 요약해줘. 그리고 그 내용이 나오는 정확한 타임스탬프도 같이 적어줘."
- 김원철김
1

5







