Sign In

ScrapeGraphAI-100k: A Large-Scale Dataset for LLM-Based Web Information Extraction

Created by
  • Haebom
Category
Empty

์ €์ž

William Brach, Francesco Zuppichini, Marco Vinciguerra, Lorenzo Padoan

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์›น ์ •๋ณด ์ถ”์ถœ์— ์ ํ•ฉํ•œ ๋Œ€๊ทœ๋ชจ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์ธ ScrapeGraphAI-100k๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ 900๋งŒ ๊ฑด ์ด์ƒ์˜ ์‹ค์ œ LLM ์ถ”์ถœ ์ด๋ฒคํŠธ๋ฅผ deduplicate ๋ฐ ์Šคํ‚ค๋งˆ๋ณ„๋กœ ๊ท ํ˜•์„ ๋งž์ถฐ 93,695๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ๋ฐ ์–ธ์–ด์— ๊ฑธ์นœ ์˜ˆ์ œ๋ฅผ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์˜ˆ์ œ๋Š” Markdown ์ฝ˜ํ…์ธ , ํ”„๋กฌํ”„ํŠธ, JSON ์Šคํ‚ค๋งˆ, LLM ์‘๋‹ต ๋ฐ ๋ณต์žก์„ฑ/๊ฒ€์ฆ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ž‘์€ ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋” ํฐ ๋ชจ๋ธ๊ณผ์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ด๋Š” ์œ ์šฉ์„ฑ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ์›น ์ •๋ณด ์ถ”์ถœ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ์˜ ํ˜„์‹ค์ ์ธ ๋ฐ์ดํ„ฐ์…‹ ๋ถ€์žฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์Šคํ‚ค๋งˆ ๋ณต์žก์„ฑ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ LLM ์ถ”์ถœ์˜ ๊ตฌ์กฐ์  ๋‹ค์–‘์„ฑ๊ณผ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ž‘์€ ๋ชจ๋ธ์„ ์œ„ํ•œ ํšจ์œจ์ ์ธ ์›น ์ •๋ณด ์ถ”์ถœ ๋ฏธ์„ธ ์กฐ์ •์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋ฐ ๋ฒค์น˜๋งˆํ‚น์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ์…‹์˜ ํŽธํ–ฅ์„ฑ์ด๋‚˜ ํŠน์ • ๋„๋ฉ”์ธ์—์„œ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„, ๊ทธ๋ฆฌ๊ณ  ์ง€์†์ ์ธ ๋ฐ์ดํ„ฐ ์—…๋ฐ์ดํŠธ ๋ฐ ๊ด€๋ฆฌ ๋ฐฉ์•ˆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘