티스토리 뷰
[ 크롤링, 스크래핑, 파싱의 차이 ]
[ 웹 크롤링 ]
크롤러라는 봇이 존재하며, 조직적, 자동화된 방법으로 www 을 탐색하는 프로그램이며, 여러 인터넷 사이트를 수집 후 분류하고 분류 한 데이터를 저장한 뒤 인덱싱하는 작업을 말한다.
[ 웹 스크래핑 ]
웹 크롤러로 페이지의 정보를 얻고 구역별로 HTML의 태그의 정보로 데이터를 추출하는 것을 의미하며 크롤링은 웹 스크래핑의 방법 중 하나이다.
[ 파싱 ]
어떠한 웹 페이지에 대해 내가 원하는 데이터를 특정패턴, 순서로 추출하여 정보로 가공한다.
[ 결론 ]
크롤링은 여러 웹페이지를 탐색하고 스크래핑을 통해 특정 페이지의 정보를 추출 후 파싱하여 우리가 원하는 데이터 형태로 가공한다.
[ 웹 스크래핑의 한계 ]
- 웹 페이지가 수정될 경우 스크래핑이 중단된다.
- 스크래핑의 간격이 줄어들 경우 악의적인 접근 ( DoS 공격과 유사 )으로 차단될 수 있다.
- 위와 같은 이유로 서버의 트래픽이 커지게 되어 사이트가 마비되는 경우와 정보의 민감한 부분으로 인한 법적 이슈가 생길 수 있다.
크롤링을 통해 웹 페이지 탐색 후 스크래핑으로 데이터를 긁고 우리가 원하는 데이터로 파싱한다는 글과 스크래핑의 방법 중 하나로 크롤링이 있으며 ( 하지만 우리는 통상적으로 크롤링과 스크래핑을 통틀어 크롤링이라 하기도 한다 ) 스크래핑으로 정보를 가공한다고 하기도 하는 것을 보아 사람들마다 정의하는 방식이 다른 것 같다..
[ 참고 자료 ]
웹 크롤링(Crawling)과 스크래핑(Scraping) 차이
오래전부터 한국의 IT 분야에서는 크롤러(Crawler)를 일반적으로 크롤링(Crawling)과 스크래핑(Scraping)을 모두 포괄하는 의미로 사용이 되었으나 최근 들어, 크롤링과 스크래핑을 분리해서 사용하는
needjarvis.tistory.com
웹 스크래핑(웹 크롤링)의 기본원리 – Epiloum 개발노트
웹 스크래핑(Web Scraping)은 웹 페이지로부터 원하는 정보를 추출하는 기법입니다. 어떤 서비스에서 API가 별도로 제공되고 있지 않지만 웹 페이지로는 정보가 제공되고 있을 때, 웹 스크래핑 기법
dev.epiloum.net
'🌱 프로젝트 > 크롤링' 카테고리의 다른 글
파이썬 크롤링 라이브러리 (1) | 2022.10.05 |
---|