로그인

Log

경험을 공유하고 잊지 않기 위해 기록해두었습니다.
[SRP AX] SchoolNote OCR
강남의 대입 컨설팅 업체의 전반적인 업무 플로우에 AI를 적용하는 업무를 맡게 되었다. 지인이 TA로 일하던 업체였고, 지인이 개인적으로 사용하던 AI 툴에 관심을 보이셨고, AI 도입에 대한 의지가 있으신 상태셨다. 몇차례의 원장님과의 미팅과 실무자 미팅을 통해 여러 프로젝트를 시작했다. 도입 목적 업무 플로우는 여러 방향이었고 진행할 수 있는 프로젝트는 다양했지만, 가장 먼저 해야할 일은 데이터를 잘 정리하여 AI와 소프트웨어에서 사용하기 좋은 형태로 만드는 작업이라고 판단했다. 비정형 데이터이고, 활용 가치가 높으며, 독점적 내부 데이터가 우선순위에 있었고, 이 업체에서는 수강생,상담생들의 생활기록부가 그러한 데이터였다. 기존에 해당 데이터는 다음과 같이 관리 및 활용되고 있었다. 종이문서, 또는 그 문서를 찍은 이미지, 또는 pdf 원본 구글드라이브에 일괄적으로 관리. 문서명으로 인덱싱, 검색 내용기반 검색은 일절 불가능. 컨설턴트의 기억력에 의존하여 유사 사례 조회 이 생활기록부가 중요한 데이터인 이유는 다음과 같다. 컨설팅 학생의 모든 것이 담겨있는 근원적 데이터이다. 이 데이터를 기반으로 컨설턴트의 분석, 상담, 수업이 이루어진다. 이 업체의 해자는 이 기초데이터에 대한 컨설턴트의 노하우가 담긴 커멘트와 평가 그리고 추후 action 제안이다. 그래서 문서,이미지,pdf 로 흩어져있던 데이터를 규격화된 markdown으로 포맷팅하고, 근원 데이터베이스를 축적하는 시스템을 제안했다. 기술 파이프라인 OCR 모델은 Mistral 의 OCR 3 모델을 사용했다. 업스테이지의 Document AI를 포함하여, gemini 등 다양한 모델을 테스트해봤을 때, 체감상 가장 정확도가 높았고, api 비용도 2$ / 1000page 로 저렴하여 이 모델을 선택했다.
  • 예준천
카카오 AI Top 100 on Campus 후기
1번 문제 : 수능 그날의 대화 대화에서 특정 맥락 캐치하기 자료에서 찾아내기 codex 를 사용했습니다. 결국 모든 문제는 tool-use / 스크립트 / llm 으로 어느정도 풀린다고 가정했습니다. 그래서 따로 복잡하게 생각하지 않고, 많은 부분을 위임한것 같습니다. 2번 문제 : 디지털 아트 감정사 멀티모달 처리 AI as a Judge : 위작인지 아닌지 판단을 AI에게 근거와 함께 맡긴다. captioning : 동물인지 아닌지 캡셔닝한다. codex only로 해보려하다가, 이미지 처리가 수월하지 않았습니다. 가장 이미지를 많이 가지고 있고, 멀티모달에 능숙한 Gemini API를 사용하여 이미지 처리를 수행했습니다. 물론 api key를 전달한것 외에는 코딩, 시행, 그에 따른 판단은 모두 codex의 gpt 5.4와 spark 가 수행했습니다. 아무래도 100장의 배치처리이다보니 에이전트의 루프가 끊어지지 않을까 걱정했는데, 실시간 진행상황까지 알려주더군요. 동물로 의심되는 사진이 13장이 나오자, 한장을 다시 걸러야하므로 llm 요청을 스스로 다시 보내는 걸 보며, 강한 Harness보다 목표만 주는게 더 좋을 수도 있다고 깨달았습니다. 3번 문제 : 무임승차자 찾기 이미지 OCR 처리
  • 예준천
n8n 업스테이지 해커톤
1주일짜리 해커톤 24시간 안에 끝내기 별 기대 없이 n8n을 사용법을 배워보고 싶다는 마음으로 참여한 행사였다. 시간이 많지 않아 외부의 문제를 해결하기보단 내부에서 실제 느낀 문제를 해결해보고자 했다. 타깃 고객으로 하는 사람들의 목소리를 들으며 필요한 기능들을 기획해 나가야하는데, 그 퍼소나를 확보하거나 유저 인터뷰를 주말 새벽 두시에 하는 건 어렵기 때문이다. 문제 정의 팀원 중 한명이 교내 해커톤 운영진이었는데, 운영에는 생각보다 귀찮은 작업들이 많았다는 경험을 이야기했다. 해커톤 운영은 많은 구성원이 참여하고 자료는 파편화되어있고, 채널도 다양하다. 또한 대게 운영진은 해커톤 운영이 본업이 아니기에 많은 시간을 쏟지 못한다. 임원진이 결정한 운영 문서에 입각하여 참가자 QnA 응답 일정 시점마다 리마인드 및 공지 알림 작성 및 발송 개인 참가자들에 대한 팀 빌딩 설문조사 응답 결과 취합 및 인사이트 도출. 결과 보고서 작성. 자료의 컨텍스트만 잘 연결된다면, LLM이 쉽게 해낼 수 있는 태스크들이라 생각되었고, n8n과 upstage LLM으로 간단한 서비스를 만들어보기로 했다. 기능개발 팀원 4명이서 하나씩 맡아 n8n workflow를 만들었고, 이외 기능들은 웹훅으로 간이 백엔드 역할을 만들었다. AI가 처리하는 프로세스를 관리 감독 할 수 있는 창은 여전히 필요하기에 Lovable을 이용하여 간단한 프론트엔드를 구성했다. Google Drive에 저장된 '공지 타임라인' 스프레드시트와 해커톤 기획안을 기반으로, 운영진의 톤앤 매너에 맞는 어조로 참가자에게 전달할 공지 문구를 Upstage API를 사용하여 자동 생성한다.
  • 예준천
BELL 아이디어톤 회고
11월 9일 서강대학교 창업학회 연합 아이디어톤을 다녀왔다. 랜덤 팀 구성 블랙박스 소속 경제학과 24학번 학우분과, 인액터스 소속 중문과 21학번 학우분과 팀이 되었다. 소소한 스몰톡을 나누고, 여유롭게 아이디에이션을 했다. 결정권자 없는 아이디에이션 아쉬운 부분은 팀장을 정하지 않았다. 특히 3명 모두 처음 만난 사이이기에 아이디어에 대한 비판적인 의견교환이나 확정적 결정이 어려웠다. 그래도 폭 넓은 주제, 특히나 나와 다른 방향으로 세상을 바라보는 사람들과 아이디어를 나누는 건 좋았던 것 같다. AI가 인간을 교육해 결국 기각된 아이디어이지만 아직 내 마음에 와 닿는 캐치프레이즈가 있는데 여기에라도 적어두고 싶다. AI가 잘하더라도 인간에게 필수적인 역량들을 갖추고 있어야한다. 예를 들어 컴퓨터가 수학연산을 아무리 잘하더라도, 지성인은 덧셈 , 뺄셈을 할 수 있어야한다. 그렇다면 AI가 잘하는 분야 중에 오히려 인간이 부족한 역량을 찾아서 역으로 학습시켜보자. ( 이전에는 인간이 하나하나 라벨링해주며 supervised learning으로 가르쳤던 모델이 이제는 인간을 가르친다는게 묘한 이질감을 느끼게 하고 재미를 준다. 모델은 발전만 하지만, 인간은 새로운 생명이 태어나면 다시 이전 세대의 지식을 전달해야한라는 기본적인 개념도 다시 깨닫는다. ) 그 중에서 타깃 했던 건 우리가 포커싱해본건 디지털 리터러시. 60대 이상의 가짜뉴스를 구별하는 판단력, 스팸 및 스미싱 문자를 의심할 수 있는 비판적 시선을 가지지 못 했지 급하게 선회 우리의 유저는 60대지만, 구매는 2-30대가 부모님, 조부모님을 위해 해 주리라 (순진하게도) 가정했다.
  • 예준천
Lovable Hack@thon 회고
대회를 시작하며 11월 1일 Hack@thon 에 다녀왔다. AI@Sogang 학회와 SW중심대학사업단이 주최하고, 서강대학교 IT 관련 학회 및 학생회에서 주관하고, lovable과 과학기술정보통신부,IITP가 후원한 대회이다. 팀원 섭외 나는 이 대회에 나가보고 싶었고, 개발해보고 싶은게 있었기에 주변에 같이 나갈 사람들을 찾았다. 고등학교 후배이자 엄랭 개발자이신 박정한님과, 같이 CES를 다녀왔던 아텍 선배이자 멋사 CEOS 카카오뱅크 인턴까지 하신 정인영님을 팀원으로 섭외했다. 사실 같이 하고 싶던 두 명이 더 있었지만, 시간이 짧고 너무 모르는 사람 5명이 모이면 오히려 호흡 맞추기가 어려울 것 같아 3명으로 팀을 확정지었다. 브레인스토밍 사실 하고싶었던 기획이 있었던 거 치고 꽤나 오래동안 브레인스토밍 했는데, 아이디어들이 다 신박하고 재밌어서 해커톤 한 5번 더 나가도 괜찮을 거 같았다. 기획 프로덕트명 프로덕트 명은 Gandalf 이다. 사람과 사람을 연결해주는 추상적인 상징체 또는 등장인물을 이름으로 하고 싶었다. GPT가 추천해준 여러 이름 중에 피터틸 패밀리에 들어가기 위해서 ‘여러 종족을 이어주는 반지의제왕의 간달프’를 골랐다. 처음에는 너무 이상했는데, 영어로 적어두고 계속보다 보니 익숙해졌다.
  • 예준천
2025 K-Startup 회고
머릿말 군 생활 중 창업의 일부 과정을 경험할 수 있는 좋은 기회를 가졌다. 25년 4월부터 12월까지, 공군창업경진대회부터, 국방부 창업경진대회, 도전 K-Startup챌린지 왕중왕전을 거치며 비즈니스의 형태와 기술을 구체화시켰다. 그 과정에서 배운 점도 많았고, 아쉬웠던 부분도 많았기에 기억이 휘발되기 전에 기록한다. 팀원이 모으기까지 고등학교 선배이자 대학교 과 선배가 될 예정이었던, 반재윤 선배에게 연락이 왔다. 함께 창업경진대회를 나가보자는 제안이었다. 이미 진주에서 2명의 팀원을 더 구했다. 카이스트 전자과를 다니던 준호형과, 숭실대 컴공에서 개발 경험이 많던 재상이 형. 나는 제품개발 겸 PM으로 참여했다. 사실 4명이 팀이기에 모두가 제너럴리스트가 될 수 밖에 없었다. 그중에서도 나는 비즈니스 모델 개발,IR Deck 작성 및 발표, 프로토 제작에 힘을 실었다. 당시에는 AI 분야에 지식이 많이 없어 논문을 겨우 이해하는 수준에 그쳐서이기도 했다. 유용한 기술 & 가치있는 모델 유용한 기술을 찾는다 대회 출품을 위해 아이디어를 브레인스토밍하다가, 과거 AI로 음성 변조 앱서비스를 만들어본 경험이 있는 팀원이 있었다. 당시에는 분간이 쉬웠고, 누구나 사용하는 기술이 아니었다. 하지만 현재의 AI의 발전속도는 금세 사람들이 분간하지 못하는 컨텐츠를 저렴하게 누구나 생성할 수 있을 것이라고 확신했다. 음성 스푸핑 탐지는 꽤나 오래된 분야다. 관련한 기술들은 이미 많은 논문들이 있었고, 음성 스푸핑 영역과 관련한 탐지 솔루션을 다루는 AsvSpoof라는 챌린지도 존재한다. 완전히 새로운 딥보이스 판별 방법론을 개발하는 것은 목표가 아니었다. 기존에 발표된 기술을 발전시켜서, 이 판별 기술이 필요한 도메인에 적절한 비즈니스를 만드는 것을 목표로 했다. 기술 자체는 복잡하지 않다. 지도학습 또는 GAN으로 딥보이스로 학습된 음성의 멜스펙트로그램과 일반 음성의 차이를 학습시킨다는 것. 초기 3트랙 비즈니스 Pure Stream : 미디어 플랫폼 검증 빌트인 API 또는 확장프로그램
  • 예준천
2025 CES 부스 운영후기
기업매칭 지원서에 작성했던 분야와 잘 맞는 AI 기반 실내 측위 솔루션을 개발하는 기업인 Ipin Labs에 매칭이 되었다. 기업 해외 마케팅 담당자분과 명함을 교환하고 다음달 중으로 회사에서 직접 뵙기로 했다. 사전교육 이후 기간 동안 군생활을 마무리하고, 4일 체험판 해외영업 직무 인턴이 되기 위해 준비했다. 개인적으로 약점이었던 영어 문제를 해결하기 위해 제품을 세일즈하는 해외 유튜브 영상(작년 CES 부스 투어하며 QnA하는 영상, SharkTank, 스타트업 피칭 영상)을 지속적으로 시청하고 따라하며 자주 쓰이는 표현이나 용어에 익숙해졌다. 제이넷컴 측에서 준비해준 사전교육은 크게 세가지였다. 발대식 당일 연사로 오신 기업 & 서포터즈 대상 CES, 그리고 전시에서 성공적으로 바이어를 만나기 위한 방법에 관한 건, 그리고 기업에 대한 조사 레포트 작성, 콜드메일 작성. 첫번째 발표를 들었을 때는 전시에 가서 목표로 하는 바, 그리고 그 목표를 달성할 수 있는 방법, 분위기에 대해 감을 잡을 수 있어서 필기도 많이하고 도움이 많이 되었다. 두번째 기업 조사 과제는 즐거운 마음으로 꽤나 깊게 조사했던 것 같다. 나는 기업들이 어떤 가치관을 가지고 어떤 문제를 어떤 솔루션으로 풀어서 어떻게 돈을 버는지 듣는걸 좋아한다. 나와 매칭된 Ipin Labs는 실내에서 위치를 측정하는 기술을 연구하던 교수님이 이 기술을 보편화고자하는 비젼을 가지고 시작했다. 하지만 B2C 대상으로는 전용 앱을 설치하도록 유도하거나 수익화를 하기 어렵다고 판단하여, 이 기술이 진짜로 필요한 산업,제조, 건설현장에서 해당 기술로 pain point들을 해결하는 쪽으로 피벗했다. 추가적인 장비의 설치로 인한 비용, 시간, 리소스를 들이지 않고도 기존 인프라를 활용하여 작업자나 자산의 위치를 파악하지 못해 발생하는 다운타임을 실내측위기술로 해결한다. 이 기술 자체에 대해서도 특허나 논문을 보며 공부를 하게 되었고, IR 자료를 보며 활용 사례들을 분류하고 기술의 엣지 포인트들을 정리했다. 공개된 자료들로 부족했던 부분들(가격정책, 더 깊은 기술적 질문, 수치적인 spec, 거절당한 poc, 회사 히스토리)을 기업 담당자 분께 직접 들으며 빈틈들을 매꿀 수 있었다. 사실 이렇게까지 기업의 정보를 깊게 확인하는게 쉽지 않은데 사심을 채운 면도 없지 않아 있다.
  • 예준천
AppBuildChat 인턴에서 내가 배운 것
회고 내 첫 인턴 생활이 6개월이 지난 현재 시점에서 내가 배운 것, 내가 기여한 것, 느낀 것들을 정리해보고자 한다. 왜 하게 되었나 군대 생활관에 누워있던 병장은 당시 스타트업과 급변하는 AI 기술에 관심이 많았다. K-Startup 왕중왕전까지 진출하여 PM 겸 엔지니어로 세상에 나만의 가치를 만들어 나간다는 것의 가치와 즐거움을 느끼고 있었다. 발표를 준비하면서는 EO채널, Bizcafe 같은 채널들을 즐겨보며 구루들의 생각과 사고 방식, 설득력있는 대화를 배웠다. 고등학교 단톡방에 재우가 채용공고를 올렸다. 사실 플러터는 다뤄본 적도 없었다. 군대에 있다보니 돈을 받고, 가치를 창출하는 일을 하고 싶어졌다. (군대는 가만히만 있어도 돈을 주는 대표적인 조직이다.) 그리고 사실 검증의 목적도 있었다. '아니 몇개월동안 걸리는 앱개발을 어떻게 3일만에 만들어주겠다는거지? 사기아니야?' 라는 생각과, '되니까 하는거겠지? 설마 재우가 사기꾼이겠어' 라는 생각이 공존하며 내가 들어가서 일해보며 그들이 일하는 방식과 어떻게 할 수 있었는지를 파헤쳐보고 싶었다. 첫날 커피챗을 하면서 나는 회사의 히스토리와, 현재의 시스템이 어떻게 돌아가고 있는지 들었다. 연이은 질문은 회사의 보안 정책에 아슬아슬하게 걸쳐있었다. 그날 이야기 해보며 나는 아래와 같은 이유로 일해보고 싶었다. 1 AI 로 고객에게 (꽤나 큰) 가치를 창출해주는 스타트업에서 일해보고 싶다. 2 개선할 여지가 보이는 포인트들이 많았고, 내가 기여할 수 있는 부분이 보인다. 3 사실 플러터를 배워서 만들어 보고 싶은 개인적인 프로젝트도 있다. 4 스타트업이 일하는걸 내부에서 보고 싶다. 당시 상황 회사는 대표님, AI팀 2명, 제품팀 3명, 미국팀 2명, 군인(재우) 1명으로 이루어져 있었다. 주에 1개 정도의 신규 고객 앱 제작 요청이 들어오고 있었고, 내부 생산성 향상을 위한 인터널 툴 개발도 이루어지고 있었다. 처음에는 신기했다. 월 40만원 가까운 돈을 지불하며 사람들은 자신의 앱을 만들고자 하는구나. 특히 인스타그램 인플루언서 마케팅이 알고리즘에 오른 날은 앱이 5개씩 쏟아져 오고 하루에 수백명씩 가입하기도 했다.
  • 예준천
Slashpage로 제작됨