时间:2021-07-01 10:21:17 帮助过:11人阅读
考虑用多进程+分布在不同机房的集群。
理由如下:
如果单进程,则瓶颈多出在CPU上。
多进程的话可以高效利用CPU。但是其实多数情况是在网络,所以说更好的解决办法是用多个机房的多台机器同时跑多进程的爬虫,这样减少网络阻塞。
实现的话,用scrapy+rq-queue然后用redis来作队列就好。
用这个方法爬过douban的几千万个页面
请参考我在另一个问题里的回答:
Python 爬虫如何入门学习?
1.开启gzip
2.多线程
3.对于定向采集可以用正则取代xpath
4.用pycurl代替urlib
5.换个带宽高的环境
谢邀。
爬虫下载慢主要原因是阻塞等待发往网站的请求和网站返回
解决的方法是采用非阻塞的epoll模型。
将创建的socket连接句柄和回调函数注册给操作系统,这样在单进程和单线程的情况下可以并发大量对页面的请求。
如果觉得自己写比较麻烦,我用过现成的类库:tornado的异步客户端
http://www.tornadoweb.org/documentation/httpclient.html
如果你打不开增加host或翻墙
host地址:
74.125.129.121 http://www.tornadoweb.org对Python来说,最好分割任务 + 多进程
你可以试试直接使用开源的爬虫库scrapy,原生支持多线程,还可以设定抓取速率,并发线程数等等参数;除此之外,scrapy对爬虫提取HTML内容也有良好的支持。
中文入门教程也已经问世,可以Google一下。
gevent,eventlet,pycurl
from multiprocessing.dummy import Pool
openshift上面跑gevent爬1024也就分分钟的事情……
话说我为什么只开了20个协程呢【严肃脸】
哦对了1024会短时间封IP,用同一个cookie爬就没事了
1.dns cache
2. 多线程
3. 异步io
用 Asynccore 之类手写。看看 Twisted 有没有非阻塞、异步的 HTTP client 框架。
用过 multiprocessing 包 + utllib 做 http client 速度相当不理想,线程应该会好但我的直觉是提升有限。
----
推荐 gevent + grequests