当前位置:Gxlcms >
数据库问题 >
Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
时间:2021-07-01 10:21:17
帮助过:15人阅读
+ Robomongo +
Xshell
请确保你的 python版本为2.7.5以上 版本
强烈推荐直接【翻 墙 安 装】,简单轻松
yum install gcc libffi-devel python-devel openssl-
devel
pip install scrapy
如果提示以下错误
AttributeError: ‘module‘ object has no attribute
‘OP_NO_TLSv1_1‘
说明你的 Twisted 版本过高,请执行
pip install Twisted==16.4.1
然后再安装以下内容
pip install "ScrapyMongoDB"
pip install beautifulsoup4
pip install pymongo
然后执行
scrapy startproject fusnion
就可以创建一个名为 funsion 的项目
附录A:Scrapy Shell 调试
Linux 命令行下输入(以本站点为例)
scrapy shell ‘http://www.cnblogs.com/funsion/‘
进入交互式shell,输入以下内容
>>>
from bs4
import BeautifulSoup
>>> soup =
BeautifulSoup(response.body)
>>>
print soup.title
如果能输出 <title>Funsion Wu - 博客园</title>
则代表成功
附录B:参考文档
Scrapy官方中文文档 http://scrapy-chs.readthedocs.org/zh_CN/latest/
index.html
BeautifulSoup 中文手册 http://www.crummy.com/software/BeautifulSoup/bs4/doc/
index.zh.html
Scrapy Mongo 说明文档 https://github.com/noplay/scrapy-
mongodb
附录C:mongodb安装方法
tar /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4
.tgz
cd /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4
mkdir -p /data/
{mongodb_data,mongodb_log}
/usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork &
ln -s /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongo /usr/local/bin/
mongo
编辑/etc/
rc.local,加入下述代码然后再保存即可。
/usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork &
Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
标签:成功 nop 创建 bom scrapy soft obj dir art