Python과 Scrapy를 사용한 크롤링

단순 문서 파싱에는 Beautiful Soup을 쓰는게 좋고,
주기적으로 여러 범위에서 크롤링을 해올땐 프레임워크 형태로 제공되는 Scrapy가 좋다.

아래는 Scrapy에 대한 설명이다.

pip install scrapy

1 2	pip install scrapy

윈도우의 경우에는 Microsoft Visual C++ Build Tools (http://landinghub.visualstudio.com/visual-cpp-build-tools)가 있어야 설치가 된다.
(없을경우 에러메시지에서 설명해줌)

$ scrapy shell '크롤링할 url'

1 2	$ scrapy shell '크롤링할 url'

위의 명령어로 REPL쉘을 열어서 크롤링할 사이트에 대해서 탐색해볼 수 있다.
윈도우의 경우 실행할때 ModuleNotFoundError: No module named ‘win32api’ 에러가 났는데

pip install pypiwin32

1 2	pip install pypiwin32

설치해주면 해결된다.
쉘에서

&gt;&gt;&gt; response.xpath('//title/text()').extract()

1 2	>>> response.xpath('//title/text()').extract()

위의 코드로 title의 내용을 추출해 낼 수 있다.

Python과 Scrapy를 사용한 크롤링