Share
Sign In

Chat Bot for local community

아리컴, Oct. 2022 ~ Jan. 2023

데이터 생성 및 라벨링

당시엔 한국어 챗봇 관련 학습데이터가 많지 않았다. 특히 전주를 기반으로 한 로컬 데이터를 만들어 내는 것이 중요했기에 기존의 챗봇 학습데이터를 기반으로 재생성 과정이 필요했다. 그리고 각 단어가 무엇을 의미하는지 라벨링 작업이 추후로 진행되었다. 그 결과 다음과 같은 데이터가 만들어지게 되었다.
모든 데이터를 수작업으로 만드는 것은 더 오래 걸리는 일이었기에 기본적인 틀을 몇 개 만들어내고 BERT를 이용하여 학습시킨 후 재생산하는 과정을 거쳤다.

챗봇 개발 및 서버 운영

이렇게 만들어진 데이터를 기반으로 챗봇을 학습시켰다. 모델은 BERT를 사용하였으며 문장에서 목적어로 삼는 단어들을 뽑아내서 그에 맞는 response를 하도록 하였다.
기본 DB에 있는 내용을 가져와서 질문에 맞는 형식으로 reponse를 출력하였다.
이렇게 개발된 챗봇을 Linux 기반 서버에서 구동시켰다.