时间:2021-07-01 10:21:17 帮助过:18人阅读
Readability
可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。
但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。
现在只用Readability
可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。
但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。
好吧,自己想到了一个解决方案。 image url
预先用xpath把图片url提取出来,然后把原先图片部分node替换成
这样只要输出的时候做一下图片url判断就行。