AI@Sogang Audio AI Study
이번 학기에 서강대학교 안에서 AI 를 깊게 공부하고 프로젝트를 할 수 있는 학회를 만들었다. 설립 멤버로 학회원들의 리크루팅(다른 사람을 평가할 실력은 전혀 아니지만)부터 홍보 행사 기획까지 참여했다. 학회의 첫 공식 활동은 Trocho Study. 네트워킹 자리를 마련해 학회원 들간의 관심 분야를 공유하고, 마음이 맞는 사람들끼리 모여 두달간 스터디를 진행한다. 나는 오디오 AI 분야 스터디에 들어갔다. 선정한 이유는 다음과 같았다. 한 분야의 논문들을 모아보면서 깊게 공부해봐야겠다고 생각했다. 함께하는 멤버들이 학부연구생들이 많아, 논문을 어떻게 읽는지 배울 수 있을 것 같았다. 작년 K-Startup 챌린지에서 수상한 아이템도 오디오 분야였고, 그 당시 학교의 음성분야를 하시는 교수님도 찾아간 적이 있었다. 서비스에 집중하느라 소홀했던 기술을 더 자세히 알아보고 싶었다. 논문 읽는거 생각보다 어려웠고, 이해하지 못하는 내용이 더 많았다. 수식을 하나하나 이해하려고 노력하다보면 시간을 너무 많이 잡아먹었다. 서베이조차 다 못 읽고 스터디 간 날도 있었고 발표자료 준비를 못한 날도 있었다. AI를 사용해서 논문 읽기의 난이도를 조금이나마 낮췄다. NotebookLM 으로 논문들을 컨텍스트로 추가하고 먼저 팟캐스트를 만들어 들으면서 쉬운 수준에서 이해했다. 그 다음엔 AI가 생성한 다이어그램과 정리된 문서를 기반으로 방법론들을 구체적으로 확인하고, 문라이트를 이용하여 논문을 읽었다. 주차별 서기록을 기반으로 7주간 스터디에서 다루었던 내용들을 정리해보았다. 1주차: Audio Representation & Synthesis 오디오 딥러닝의 기초가 되는 데이터 표현 방식과 생성 모델의 원리를 학습했다. Data Representation: 오디오 데이터는 Raw Audio(Waveform), Spectrogram(STFT, CQT), Acoustic Feature(MFCC, Pitch), Embedding(Wav2Vec) 등 다양한 형태로 표현되며, 목적에 따라 적절한 표현형을 선택해야 한다.
- AI
- 예준천예