时间:2021-07-01 10:21:17 帮助过:11人阅读
1.首先从
提取我是一个标题 - 网站名称
2.然后透过搜寻
包含 -
或div.title
我是一个标题
的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题
感觉识别文章就比较困难了
透過div
下p
或br
標籤的數量多少判斷该div
是否文章内容
大神有识别文章内容没有更好的方案?
找到這個 http://segmentfault.com/a/1190000000362182
一个能够识别大部分文章的标题及内容的方法
1.首先从
提取我是一个标题 - 网站名称
2.然后透过搜寻
包含 -
或div.title
我是一个标题
的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题
感觉识别文章就比较困难了
透過div
下p
或br
標籤的數量多少判斷该div
是否文章内容
大神有识别文章内容没有更好的方案?
找到這個 http://segmentfault.com/a/1190000000362182