벨루가에서는 콘텐츠 학습을 위한 두 가지 학습 방식을 제공합니다. 바로 개별 URL & 뎁스 URL 학습 입니다.
웹 링크 화면
주의:
웹 주소 (Web URL)을 이용하여 학습(임베딩) 시, 제 3자의 웹사이트를 대상으로 하는 경우, 해 당 웹사이트의 크롤링 정책을 확인 후 이용하시기 바랍니다.
페이지별 최대 6000 byte 까지 (한글 1자 = 2 byte) 학습(한글 기준 3000자, 영문 기준 6000자) 바로 한번 처리 됩니다. 6000 byte 이상인 경우 나누어 처리되는 점 참고 바랍니다.
뎁스 URL 은 해당 최대 100개로 제한 됩니다.
뎁스 URL은 많은 시간이 소요 될 수 있습니다. 긴 경우 15분 이상 소요 될 수 있습니다.
보안 수준이 높은 웹사이트의 경우 학습에 실패 할 수 있습니다.
개별 URL
개별 URL 은 URL 단일 웹페이지를 학습합니다.
페이지 내 하위 웹사이트 또는 링크는 자동으로 학습하지 않습니다.
1.
장점: 원하는 페이지를 빠르게 학습 가능합니다.
2.
단점: 개별 URL 를 직접 입력하여 번거로울 수 있습니다.
뎁스 URL
뎁스 URL은 해당 사이트 URL를 입력시 하위 링크의 페이지들을 접근하여 자동으로 학습을 시킵니다. 현재 최대 100개의 링크를 가져올 수 있습니다. 100개 이상의 링크가 인식되는 경우 100개까지만 학습 가능합니다.
1.
장점: 하위 페이지를 자동으로 가져 옵니다.
2.
단점: 매우 오랜 시간이 걸릴 수 있으며 원하지 않는 링크도 학습 시킬 수도 있습니다.
뎁스 URL 은 크게 두 가지 유형에 대하여 학습합니다.
1.
XML 사이트 맵을 가진 웹사이트 - 사이트 맵은 검색 시 사이트의 구조를 보여주는 역할을 하며 검색 최적화를 위해 많은 웹사이트가 사용하고 있습니다. XML을 이용하는 방식은 가장 표준적인 방식으로 학습시 보다 빠르게 인식하고 진행이 가능합니다.
2.
HTML 또는 사이트 맵이 없는 웹사이트 - 사이트 맵이 있더라도 해당 사이트 맵이 HTML 로 만들어진 경우 사이트 맵을 가지고 오는데 시간이 상당히 소요됩니다. 또한 사이트 맵이 없는 경우 링크를 하나 씩 모두 확인하는 과정으로 인해 학습 시간이 더욱 오래 걸립니다.