当前位置:Gxlcms > Python > Python爬虫爬取指定博客的所有文章

Python爬虫爬取指定博客的所有文章

时间:2021-07-01 10:21:17 帮助过:4人阅读

自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下:
1.增加了Cron: 用来告诉程序每隔30分钟 让一个task 醒来, 跑到指定的那几个博客上去爬取最新的更新
2.用google 的 Datastore 来存贮每次爬虫爬下来的内容。。只存贮新的内容。。

就像上次说的那样,这样以来 性能有了大幅度的提高: 原来的每次请求后, 爬虫才被唤醒 所以要花大约17秒的时间才能从后台输出到前台而现在只需要2秒不到

3.对爬虫进行了优化

1. Cron.yaml 来安排每个程序醒来的时间

经过翻文档, 问问题终于弄明白google的cron的工作原理--实际上只是google每隔指定的时间虚拟地访问一个我们自己指定的url…
因此在Django 下, 根本不需要写一个纯的python 程序 一定不要写:
if __name__=="__main__":
只需要自己配置一个url 放在views.py里:

  1. def updatePostsDB(request):
  2. #deleteAll()
  3. SiteInfos=[]
  4. SiteInfo={}
  5. SiteInfo['PostSite']="L2ZStory"
  6. SiteInfo['feedurl']="feed://l2zstory.wordpress.com/feed/"
  7. SiteInfo['blog_type']="wordpress"
  8. SiteInfos.append(SiteInfo)
  9. SiteInfo={}
  10. SiteInfo['PostSite']="YukiLife"
  11. SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1583902832.xml"
  12. SiteInfo['blog_type']="sina"
  13. SiteInfos.append(SiteInfo)
  14. SiteInfo={}
  15. SiteInfo['PostSite']="ZLife"
  16. SiteInfo['feedurl']="feed://ireallife.wordpress.com/feed/"
  17. SiteInfo['blog_type']="wordpress"
  18. SiteInfos.append(SiteInfo)
  19. SiteInfo={}
  20. SiteInfo['PostSite']="ZLife_Sina"
  21. SiteInfo['feedurl']="feed://blog.sina.com.cn/rss/1650910587.xml"
  22. SiteInfo['blog_type']="sina"
  23. SiteInfos.append(SiteInfo)
  24. try:
  25. for site in SiteInfos:
  26. feedurl=site['feedurl']
  27. blog_type=site['blog_type']
  28. PostSite=site['PostSite']
  29. PostInfos=getPostInfosFromWeb(feedurl,blog_type)
  30. recordToDB(PostSite,PostInfos)
  31. Msg="Cron Job Done..."
  32. except Exception,e:
  33. Msg=str(e)
  34. return HttpResponse(Msg)

cron.yaml 要放在跟app.yaml同一个级别上:
cron:
- description: retrieve newest posts
url: /task_updatePosts/
schedule: every 30 minutes

在url.py 里只要指向这个把task_updatePostsDB 指向url就好了

调试这个cron的过程可以用惨烈来形容。。。在stackoverflow上有很多很多人在问为什么自己的cron不能工作。。。我一开始也是满头是汗,找不着头脑。。。最后侥幸弄好了,大体步骤也是空泛的很。。但是很朴实:
首先,一定要确保自己的程序没有什么syntax error….然后可以自己试着手动访问一下那个url 如果cron 正常的话,这个时候任务应该已经被执行了 最后实在不行的话多看看log…

2. Datastore的配置和利用--Using Datastore with Django

我的需求在这里很简单--没有join…所以我就直接用了最简陋的django-helper..
这个models.py 是个重点:

代码如下:


from appengine_django.models import BaseModel
from google.appengine.ext import db

classPostsDB(BaseModel):
link=db.LinkProperty()
title=db.StringProperty()
author=db.StringProperty()
date=db.DateTimeProperty()
description=db.TextProperty()
postSite=db.StringProperty()

前两行是重点中的重点。。。。我一开始天真没写第二行。。。结果我花了2个多小时都没明白是怎么回事。。得不偿失。。。
读写的时候, 千万别忘了。。。PostDB.put()

一开始的时候,我为了省事,就直接每次cron被唤醒, 就删除全部的数据, 然后重新写入新爬下来的数据。。。
结果。。。一天过后。。。有4万条读写纪录。。。。而每天免费的只有5万条。。。。
所以就改为在插入之前先看看有没有更新, 有的话就写,没的话就不写。。总算把数据库这部分搞好了。。。

3.爬虫的改进:
一开始的时候,爬虫只是去爬feed里给的文章。。这样一来,如果一个博客有24*30篇文章的话。。。最多只能拿到10篇。。。。
这次,改进版能爬所有的文章。。我分别拿孤独川陵, 韩寒, Yuki和Z的博客做的试验。。成功的很。。。其中孤独川陵那里有720+篇文章。。。无遗漏掉的被爬下来了。。

  1. import urllib
  2. #from BeautifulSoup import BeautifulSoup
  3. from pyquery import PyQuery as pq
  4. def getArticleList(url):
  5. lstArticles=[]
  6. url_prefix=url[:-6]
  7. Cnt=1
  8. response=urllib.urlopen(url)
  9. html=response.read()
  10. d=pq(html)
  11. try:
  12. pageCnt=d("ul.SG_pages").find('span')
  13. pageCnt=int(d(pageCnt).text()[1:-1])
  14. except:
  15. pageCnt=1
  16. for i in range(1,pageCnt+1):
  17. url=url_prefix+str(i)+".html"
  18. #print url
  19. response=urllib.urlopen(url)
  20. html=response.read()
  21. d=pq(html)
  22. title_spans=d(".atc_title").find('a')
  23. date_spans=d('.atc_tm')
  24. for j in range(0,len(title_spans)):
  25. titleObj=title_spans[j]
  26. dateObj=date_spans[j]
  27. article={}
  28. article['link']= d(titleObj).attr('href')
  29. article['title']= d(titleObj).text()
  30. article['date']=d(dateObj).text()
  31. article['desc']=getPageContent(article['link'])
  32. lstArticles.append(article)
  33. return lstArticles
  34. def getPageContent(url):
  35. #get Page Content
  36. response=urllib.urlopen(url)
  37. html=response.read()
  38. d=pq(html)
  39. pageContent=d("div.articalContent").text()
  40. #print pageContent
  41. return pageContent
  42. def main():
  43. url='http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html'#Han Han
  44. url="http://blog.sina.com.cn/s/articlelist_1225833283_0_1.html"#Gu Du Chuan Ling
  45. url="http://blog.sina.com.cn/s/articlelist_1650910587_0_1.html"#Feng
  46. url="http://blog.sina.com.cn/s/articlelist_1583902832_0_1.html"#Yuki
  47. lstArticles=getArticleList(url)
  48. for article in lstArticles:
  49. f=open("blogs/"+article['date']+"_"+article['title']+".txt",'w')
  50. f.write(article['desc'].encode('utf-8')) #特别注意对中文的处理
  51. f.close()
  52. #print article['desc']
  53. if __name__=='__main__':
  54. main()

对PyQuery的推荐。。
很遗憾的说, BueautifulSoup让我深深的失望了。。。在我写上篇文章的时候,当时有个小bug..一直找不到原因。。在我回家后,又搭上了很多时间试图去弄明白为什么BueautifulSoup一直不能抓到我想要的内容。。。后来大体看了看它selector部分的源代码觉得应该是它对于很多还有