4️⃣

문서 관리

문서관리 화면

문서 관리 화면은 [채널 설정] > [문서 관리] 탭에 위치 해 있습니다.

파일

현재 지원하는 파일 형식은 pdf, txt, docx, md, csv, html, htm
그 외 형식(JSON, SQL, HWP 등)은 별도 맞춤형으로 지원 가능합니다.
벨루가는 파일 형식에 따라 학습(임베딩)을 다르게 처리 함으로써 보다 정확한 증강 생성이 가능하도록 계속해서 지속적으로 고도화 하고 있습니다.
⚠️
주의하세요!
다수의 파일, 링크 데이터 등을 학습(임베딩) 시 실패를 할 수 있습니다.
실패한 파일을 삭제하고 다시 시도해 보세요.
각 파일 형식에 대한 주의 사항을 꼭 확인 바랍니다.
병합이나 표안의 표 등 문서 내 표가 많은 경우 답변이 부정확할 수 있는 확률이 높아집니다.

PDF 파일

강력한 호환성으로 누구나 쉽게 사용 가능하며 다양한 기본 기능 및 자동화 처리가 되어 있습니다.
1.
사용 난이도: 하
2.
pdf 파일은 벨루가에서 가장 많은 기능을 지원하는 형식
3.
pdf 내 페이지를 이용하여 출처 노출 시 전용 뷰어와 페이지 자동 이동이 됩니다.
4.
pdf 내 표 처리를 자동화하여 처리합니다.
5.
pdf 내 컨텐츠의 구성이 인식 가능한 (예, 제목 글의 폰트 사이즈 등) 구조인 경우 주제를 기준으로 문서를 나눔 처리 합니다.
⚠️
주의하세요!
PDF 파일은 파일에 암호화(비밀번호가 아닌) 처리가 된 경우 지원하지 않습니다.
PDF 파일 실패시 내용이 이미지로 이루어져 있는지 확인 바랍니다.
PDF 파일열고 마우스 커서를 내용 글자에 천천히 가져가 글자가 선택이 되지 않으면 이미지로 만들어진 PDF 파일입니다.

마크다운 형식 (Markdown)

마크다운 문서는 학습에 용이한 기호를 사용하여 기호들을 이용하여 보다 품질 높은 학습(임베딩) 처리가 가능합니다.
1.
사용 난이도: 중
2.
#, ##, ### 3 단계를 이용하여 주제 또는 문서의 연결성을 보장 할 수 있도록 처리됩니다.
3.
페이지 단위로 사용을 원하는 경우 파일을 나누어 등록하면 됩니다.
4.
마크다운 형식을 기본으로 사용한 Notion을 이용하는 경우 보다 편리하게 문서의 구조를 이용하여 학습이 가능합니다.

MS Excel 형식 (xlsx )

엑셀 파일은 CSV 파일 학습과 유사하게 답변의 형식, 길이, 사용자가 입력한 내용만 답변하게 만들때 매우 효과적입니다. 현재 CSV 와 같이 구분자를 반드시 가지고 있어야 하며, 구분자를 포함하여 한 행씩 학습이 됩니다.
1.
각 시트별로 구분하여 학습이 됩니다. 시트 명칭이 있으면 해당 시트명을 메타 정보로 활용합니다.
2.
행 또는 열에 공백이 있는 경우 자동 제거 됩니다.
3.
표의 구조는 아래 예시와 같이 구분자를 포함 해당 행의 내용을 하나의 나눔으로 처리됩니다.
4.
구분자의 글자수 포함 각 행의 내용은 최대 2,000자가 넘지 않도록 합니다.
5.
셀 내에 일반적으로 사용하지 않는 이모티콘 또는 특수문자가 있으면 오류를 발생시킬 수 있습니다.

CSV (쉼표 분리 값) 형식

사용자가 답변의 형식, 길이 등을 최대한 통제하고 싶은 경우 가장 효과적인 형식입니다.
원하는 형식이나 내용을 맞추어 답변하게 할 수 있습니다.

1.
구분(헤더)를 이용하여 주제와 분류를 이용하여 학습(임베딩) 단위를 명확히 할 수 있습니다.
2.
CSV 형식은 별도의 글자 수 나눔 처리 기준을 가지고 있으며, 한 행을 기준으로 최대값이 2,000자 입니다.
3.
글자수는 구분(헤더) 글자수 + 한횡 글자 수가 2,000자가 넘지 않아야 합니다.
4.
CSV 는 PDF 파일을 출처 용으로 사용할 수 있는 별도의 기능을 제공합니다. 즉, 학습(임베딩)은 CSV 파일로 진행하고 출처 노출은 CSV 파일에서 지정한 페이지가 연결되게 할 수 있습니다.
단점은 별도의 학습을 위한 자료를 구성하고 직접 만들어야 하는 경우가 많아 문서 양에 따라서 많은 시간을 필요로하며, 벨루가 채널 설정의 고급 설정을 함께 이용하여야 하는 점에서 사전 지식이 필요합니다.

Html 및 htm

html 및 htm 파일은 마크 다운과 유사하게 html 태그를 이용하여 효과적으로 학습합니다.
1.
h1, h2 등의 태그와 table 태그를 적극적으로 활용합니다.
2.
불필요한 태그는 사용하지 않습니다.
3.
웹 링크를 이용하여 보다 편리하게 사용 가능합니다.
4.
동적 랜더링과 정적 랜더링 모두 지원
5.
뎁스 URL의 경우 최대 100개의 URL 페이지 까지 학습
6.
페이지별 최대 6000 byte 까지 (한글 1자 = 2 byte) 학습(한글 기준 3000자, 영문 기준 6000자) 초과시 주요 태그를 이용 이어서 학습
7.
학습 가능한 html 태그 확장 (iframe, 이미지, a 태그 등)

MS 워드 docx 및 텍스트 파일 TXT

가장 단순한 구조의 파일입니다.
1.
주제 기반으로 나누지 않습니다.
2.
서술형의 내용인 경우 텍스트 파일을 글자 수 기준으로 나누어 학슴(임베딩) 됩니다.
3.
출처 노출 시 파일을 다운로드 합니다

웹 링크

웹 링크 화면

주의:
웹 주소 (Web URL)을 이용하여 학습(임베딩) 시, 제 3자의 웹사이트를 대상으로 하는 경우, 해 당 웹사이트의 크롤링 정책을 확인 후 이용하시기 바랍니다.
페이지별 최대 6000 byte 까지 (한글 1자 = 2 byte) 학습(한글 기준 3000자, 영문 기준 6000자) 바로 한번 처리 됩니다. 6000 byte 이상인 경우 나누어 처리되는 점 참고 바랍니다.
뎁스 URL 은 해당 최대 100개로 제한 됩니다.
뎁스 URL은 많은 시간이 소요 될 수 있습니다. 긴 경우 15분 이상 소요 될 수 있습니다.
보안 수준이 높은 웹사이트의 경우 학습에 실패 할 수 있습니다.

개별 URL

개별 URL 은 URL 단일 웹페이지를 학습합니다.
페이지 내 하위 웹사이트 또는 링크는 자동으로 학습하지 않습니다.
1.
장점: 원하는 페이지를 빠르게 학습 가능합니다.
2.
단점: 개별 URL 를 직접 입력하여 번거로울 수 있습니다.

뎁스 URL

뎁스 URL은 해당 사이트 URL를 입력시 하위 링크의 페이지들을 접근하여 자동으로 학습을 시킵니다. 현재 최대 100개의 링크를 가져올 수 있습니다. 100개 이상의 링크가 인식되는 경우 100개까지만 학습 가능합니다.
1.
장점: 하위 페이지를 자동으로 가져 옵니다.
2.
단점: 매우 오랜 시간이 걸릴 수 있으며 원하지 않는 링크도 학습 시킬 수도 있습니다.
뎁스 URL 은 크게 두 가지 유형에 대하여 학습합니다.
1.
XML 사이트 맵을 가진 웹사이트 - 사이트 맵은 검색 시 사이트의 구조를 보여주는 역할을 하며 검색 최적화를 위해 많은 웹사이트가 사용하고 있습니다. XML을 이용하는 방식은 가장 표준적인 방식으로 학습시 보다 빠르게 인식하고 진행이 가능합니다.
2.
HTML 또는 사이트 맵이 없는 웹사이트 - 사이트 맵이 있더라도 해당 사이트 맵이 HTML 로 만들어진 경우 사이트 맵을 가지고 오는데 시간이 상당히 소요됩니다. 또한 사이트 맵이 없는 경우 링크를 하나 씩 모두 확인하는 과정으로 인해 학습 시간이 더욱 오래 걸립니다.

앱 연동 기능입니다. 현재 Notion 과 국가법령정보센터 를 연동하는 기능을 지원합니다.
그외 별도 연동이 필요한 경우 기업 맞춤형 서비스를 문의하시기 바랍니다.

Notion 연동하기

자신의 Notion 계정을 이용하여 노션에서 제작한 페이지를 학습과 연동 가능합니다.
⚠️
주의하세요!
1.
Notion 자체 API 는 속도가 빠르지 않는 점 참고해주세요.
2.
Notion 데이터 베이스가 존재하는 페이지는 현재 지원하지 않습니다. 페이지와 테이블만을 이용하여 연결하시기 바랍니다.
3.
Notion 실시간 업데이트를 현재 지원하지 않습니다. 내용이 바뀐경우 해당 페이지를 삭제하고 다시 해당 페이지만 학습하시기 바랍니다.
4.
Notion 실시간 업데이트를 구현 목록이 들어가 있으며 업데이트가 이루어지면 별도 공지 예정입니다.
1.
노션 [연동하기] 버튼을 클릭합니다.
2.
본인의 노션 계정으로 로그인 합니다.
3.
노션의 로그인 기능을 이용하여 학습(임베딩) 페이지를 선택합니다.

국가법령정보센터

법령
판례
© Veluga Inc. All Rights Reserved.