当前位置:Gxlcms > PHP教程 > PHPxpath解析html图文混排内容

PHPxpath解析html图文混排内容

时间:2021-07-01 10:21:17 帮助过:18人阅读

现在只用Readability可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。

但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。

回复内容:

现在只用Readability可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。

但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。

好吧,自己想到了一个解决方案。
预先用xpath把图片url提取出来,然后把原先图片部分node替换成

image url


这样只要输出的时候做一下图片url判断就行。

人气教程排行