당시엔 한국어 챗봇 관련 학습데이터가 많지 않았다. 특히 전주를 기반으로 한 로컬 데이터를 만들어 내는 것이 중요했기에 기존의 챗봇 학습데이터를 기반으로 재생성 과정이 필요했다. 그리고 각 단어가 무엇을 의미하는지 라벨링 작업이 추후로 진행되었다. 그 결과 다음과 같은 데이터가 만들어지게 되었다.
모든 데이터를 수작업으로 만드는 것은 더 오래 걸리는 일이었기에 기본적인 틀을 몇 개 만들어내고 BERT를 이용하여 학습시킨 후 재생산하는 과정을 거쳤다.
챗봇 개발 및 서버 운영
이렇게 만들어진 데이터를 기반으로 챗봇을 학습시켰다. 모델은 BERT를 사용하였으며 문장에서 목적어로 삼는 단어들을 뽑아내서 그에 맞는 response를 하도록 하였다.