'🌱 프로젝트/크롤링' 카테고리의 글 목록

파이썬 크롤링 라이브러리

파이썬 크롤링 라이브러리로 크게 BeautifulSoup4, requests, , selenium, scrapy 등이 있다. [ BeautifulSoup4 ] BeautifulSoup4는 파이썬 내장 모듈인 requests, urllib를 이용해 HTML 을 받아오고 beautifulSoup로 추출한다. 장점 쉽고, 빠르고(병렬 처리시), 간단하다. 단점 HTML을 받아오기 때문에 SPA (ex. vue.js에서 라우팅 기능을 사용하여 페이지를 하나만 유지시키는 것)이나 js가 적용된 페이지를 크롤링하기엔 어렵다. [ lxml ] 기본적으로 BeautifulSoup에서는 BeautifulSoup(html, 'html.parser') 와 같이 html parser 를 사용할수도 있지만 lxml 모듈을 설치..

format_list_bulleted 크롤링
· 2022. 10. 5.

크롤링, 스크래핑, 파싱

[ 크롤링, 스크래핑, 파싱의 차이 ] [ 웹 크롤링 ] 크롤러라는 봇이 존재하며, 조직적, 자동화된 방법으로 www 을 탐색하는 프로그램이며, 여러 인터넷 사이트를 수집 후 분류하고 분류 한 데이터를 저장한 뒤 인덱싱하는 작업을 말한다. [ 웹 스크래핑 ] 웹 크롤러로 페이지의 정보를 얻고 구역별로 HTML의 태그의 정보로 데이터를 추출하는 것을 의미하며 크롤링은 웹 스크래핑의 방법 중 하나이다. [ 파싱 ] 어떠한 웹 페이지에 대해 내가 원하는 데이터를 특정패턴, 순서로 추출하여 정보로 가공한다. [ 결론 ] 크롤링은 여러 웹페이지를 탐색하고 스크래핑을 통해 특정 페이지의 정보를 추출 후 파싱하여 우리가 원하는 데이터 형태로 가공한다. [ 웹 스크래핑의 한계 ] 웹 페이지가 수정될 경우 스크래핑이 중..

format_list_bulleted 크롤링
· 2022. 9. 30.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

파이썬 크롤링 라이브러리

크롤링, 스크래핑, 파싱

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역