3.1-2. 웹페이지 크롤링 w/ 챗GPT

3-1-1-1.네이버 블로그 검색 결과 페이지 크롤링 실습

"하이닉스" 검색 (원하는 키워드가 있으면 적용)
블로그 탭 선택
원하는 블로그 검색량이 나올 때까지 스크롤 다운
F12(개발자화면) 오픈
블로그 글 섹션 위치 파악(아래 1, 2번)
이 때, 스크롤 최하단으로 위치시키고 블로그 글이 모두 선택되는지 확인 필수!!!
'Copy elements'(요소 복사) - 아래 3번
복사한 내용 메모장에 붙여넣고, 영문명으로 저장
i.e. Naver-Blog-Hynix-Copy-Elements.txt
ChatGPT에 파일 첨부 하고, 요청하기
첨부 파일은 네이버에서 "하이닉스"로 검색한 블로그 결과 페이지야. 스크래핑 할 수 있는 블로그 수 알려줘.
ChatGPT는 블로그 하나에 해당하는 소스 코드의 단위를 모를 수 있음.
따라서, 블로그 하나에 해당하는 소스를 '요소 복사(copy element)'해서 물어보면 더 정확한 값을 알 수 있음
블로그 하나는 아래와 같은 구조로 되어 있어. 블로그 수를 파악해서 알려줘. --- <<<위에서 복사한 뉴스 한 단위 소스 붙여넣기>>>
💬
gpt
첨부하신 최신 파일을 다시 분석한 결과, 블로그는 총 112개입니다.

📊 결과 요약

항목
기준 태그
<div data-template-id="ugcItem">
발견된 개수
112개
의미
네이버 검색 결과에서 블로그 포스트 단위 콘텐츠 수
크롤링 가능 여부
즉, 이번 파일에는 총 112개의 블로그 포스트가 포함되어 있으며,
모두 개별 URL 형태로 크롤링이 가능합니다.
원하신다면 이 112개 블로그의 URL만 추출해서
TXT나 CSV 파일로 정리해드릴 수도 있습니다.
그렇게 진행할까요?
크롤링 가능한 내용 확인
첨부 파일에서 크롤링할 수 있는 내용들 확인해봐.
크롤링 요청하기
수집 가능한 데이터 CSV 파일로 다운로드 할 수 있도록 해줘. 영문 파일명으로.
💬
gpt
"파일을 UTF-8 인코딩 형식으로 만들어 줘"

3-1-1-2.네이버 최신 뉴스 검색 결과 페이지 크롤링 실습

"하이닉스" 검색
뉴스 탭 선택
"최신순" 선택
원하는 뉴스 검색량이 나올 때까지 스크롤 다운
F12(개발자화면) 오픈
뉴스글 섹션 위치 파악(아래 1, 2번)
이 때, 스크롤 최하단으로 위치시키고 뉴스 글이 모두 선택되는지 확인 필수!!!
'Copy elements'(요소 복사) - 아래 3번
복사한 내용 메모장에 붙여넣고, 영문명으로 저장 (i.e. Naver-News-Hynix-Copy-Elements.txt)
ChatGPT는 블로그 하나에 해당하는 소스 코드의 단위를 모를 수 있음.
따라서, 블로그 하나에 해당하는 소스를 '요소 복사(copy element)'해서 물어보면 더 정확한 값을 알 수 있음
첨부 파일은 네이버에서 "하이닉스"로 검색한 뉴스 결과 페이지야. 아래는 뉴스 기사 하나의 샘플 구조야. 뉴스 수 알려줘. --- <<<위에서 복사한 뉴스 한 단위 소스 붙여넣기>>>
ChatGPT가 뉴스 수를 제대로 확인할 때까지 일련의 '티키타카' 필요할 수 있음
크롤링 가능한 내용 확인
첨부 파일에서 크롤링할 수 있는 내용들 확인해봐.
💬
gpt
첨부된 네이버 뉴스 HTML 파일(3-1.Naver-News-Hynix-Copy-Elements.txt)을 분석해보면, 다음과 같은 크롤링 가능한 주요 정보 필드들을 포함하고 있습니다 👇

📰 크롤링 가능한 항목

구분
필드명
예시/설명
🏷 뉴스 제목
"title"
"AI 훈풍 타는 반도체, 찬바람 맞은 가전… 3·4분기 실적 온도차"
🔗 뉴스 링크(URL)
"titleHref"
📰 언론사명
"sourceProfile" → "title"
"파이낸셜뉴스", "전자신문", "한국금융신문"
🌐 언론사 홈페이지 링크
"sourceProfile" → "titleHref"
🕓 게시 시간 / 작성 시점
"subTexts":[{"text":"4시간 전"}]
상대시간(예: 30분 전, 1시간 전)
🧭 네이버뉴스 링크(있을 경우)
"subTexts":[{"textHref": "...n.news.naver.com..."}]
네이버 뉴스 내 원문
🖼 썸네일 이미지 URL
"imageSrc"
🔗 이미지 원본 링크
"imageHref"
언론사 기사 원문 URL
🗞 기사 요약/본문 일부
"content" 또는 .sds-comps-text-type-body1 영역
"SK하이닉스 사장도 연사로 나서..." 등 일부 문단
🏢 언론사 로고 이미지
"sourceProfile" → "imageSrc"
📎 Keep 관련 데이터
"keep", "keepURL", "data-url"
네이버 Keep 기능 관련 메타데이터
🧩 템플릿 정보
"templateId": "newsItem"
기사 블록 식별용 키
요약하면, 이 HTML에는 기사 제목 / 본문요약 / 언론사명 / 게시시간 / 뉴스 링크 / 썸네일 / 네이버뉴스 링크등이 포함되어 있어서
데이터프레임 형태로 다음 컬럼을 추출할 수 있습니다:
[ title, titleHref, press, pressHref, summary, published, naverNewsURL, imageSrc ]
원하신다면 이 파일에서 실제로 위 컬럼을 파싱해 데이터프레임으로 정리해드릴 수도 있습니다.
진행할까요?
내게 필요한 항목 크롤링 요청하기
수집 가능한 데이터 CSV 파일로 다운로드 할 수 있도록 해줘. 영문 파일명으로.
💬
gpt
추가 분석
하이닉스 관련 뉴스로 어떤 추가 분석이 가능할까?
하이닉스에 대한 키워드 빈도 분석하고, 워드클라우드로 시각화해줘
💬
gpt
뉴스가 하이닉스를 긍정적으로 보도하는지, 부정적인지 감성 분석해줘.
💬
gpt
Contact : azureguy@empal.com / azureguy@cau.ac.kr