当前位置:Gxlcms > Python > Python打印scrapy蜘蛛抓取树结构的方法

Python打印scrapy蜘蛛抓取树结构的方法

时间:2021-07-01 10:21:17 帮助过:68人阅读

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单

  1. #!/usr/bin/env python
  2. import fileinput, re
  3. from collections import defaultdict
  4. def print_urls(allurls, referer, indent=0):
  5. urls = allurls[referer]
  6. for url in urls:
  7. print ' '*indent + referer
  8. if url in allurls:
  9. print_urls(allurls, url, indent+2)
  10. def main():
  11. log_re = re.compile(r'<get (.*?)=""> \(referer: (.*?)\)')
  12. allurls = defaultdict(list)
  13. for l in fileinput.input():
  14. m = log_re.search(l)
  15. if m:
  16. url, ref = m.groups()
  17. allurls[ref] += [url]
  18. print_urls(allurls, 'None')
  19. main()</get>

希望本文所述对大家的Python程序设计有所帮助。

人气教程排行