时间:2021-07-01 10:21:17 帮助过:67人阅读
1、去除所有tag,包括样式、Js脚本内容等,但保留原有的换行符\n
2、将网页内容按行分割,定义行块 $block_i$ 为第 $[i, i + blockSize]$ 行文本之和并给出行块长度基于行号的分布函数:
3、正文出现在最长的行块,截取两边至行块长度为 0 的范围:
4、如果需要提取正文区域出现的图片,只需要在第一步去除tag时保留<img>标签的内容:
以上就是【python教程】网页正文及内容图片提取算法的内容,更多相关内容请关注PHP中文网(www.gxlcms.com)!