时间:2021-07-01 10:21:17 帮助过:29人阅读
",
"/<\/div>/i" => "
',
"/<\/tr>/i" => '
", ',//替换半角、全角空格,换行符,用 排除写入数据库时产生的编码问题 ')>6)//部分内容开头可能缺失 标签 '.$content; http://www.bkjia.com/PHPjc/327743.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/327743.htmlTechArticle做采集经常遇到的问题是内容排版问题,用了一些时间写了个用正则替换html标签和样式的函数,共享下。 代码如下:
"/
"/ /i" => ' ',//空格替换掉
"/
);
$config = array(
//'indent' => TRUE, //是否缩进
'output-html' => TRUE,//是否是输出xhtml
'show-body-only'=>TRUE,//是否只获得到body
'wrap' => 0
);
$content = tidy_repair_string($content, $config, 'utf8');//先利用php自带的tidy类库修复html标签,不然替换的时候容易出现各种诡异的情况
$content = trim($content);
foreach ( $replaces as $k => $v ) {
$content = preg_replace ( $k, $v, $content );
}
if(strpos($content,'
$content = '
$content = tidy_repair_string($content, $config, 'utf8');//再修复一次,可以去除html空标签
$content = trim($content);
return $content;
}
/** * 格式化内...