时间:2021-07-01 10:21:17 帮助过:3人阅读
SpiderTools.class.php
代码如下:
session_start();
//封装成类 开启这些自动抓取文章
#header("Refresh:30;http://www.test.com:8080");
class SpiderTools{
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析出文章标题*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookNameById($aid){
//初始化curl
$ch= curl_init();
//url
$url='http://www.motie.com/book/'.$aid;
if(is_numeric($aid)){
//正则表达式匹配
$ru="/
[\s\S]*(.*)<\/pre>/ui";输出内容
$url='http://www.motie.com/book/'.$aid;
//正则表达式匹配//设置选项,包括URL
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*静态方法 @生成小说文件 可以直接调用 */
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public static function createBookById($id){
if(!is_numeric($id)){
echo "
INIT BEGIN START WRITE!";
$st=new self();
$cons=$st->getBookContextById($id);
$title=$st->getBookNameById($id);
$cons=trim($cons);
$t=explode(" ",$title);
//构造目录
$dir=array();
$dir=explode("_",$t[0]);
$wzdir=$dir[0]; //书名称 作为目录名称
$wzchapter=$dir[1]; //第几章
//创建目录
$wzdir2=iconv("UTF-8", "GBK", $wzdir);//目录编码 注意这里保留对$wzdir字符串的引用,用来构造文件名,不能用此处,防止二次编码
if(!file_exists($wzdir2)){
mkdir($wzdir2); //创建目录
}
//构造文件名
$wztitle="./".$wzdir."/"."$t[0]".".txt";
//保证保存的文件名称不是乱码
$wztitle=iconv("UTF-8", "GBK", $wztitle);
$f=fopen($wztitle,"w+");
fwrite($f,$cons);
echo "$wzdir ".$wzchapter."写入成功";
fclose($f);
}
else{
$ids=self::getBookIdsById($id);
//这里服务器可能会掉线,所以最好用session记录循环
#for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){
#self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"]++]);//构造id
#}
for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){
self::createBookById($id."_".$ids[$i]);//构造id
}
#echo "
}
/*
获取小说的所有ID
@param $id 文章ID
@return array;
*/
public static function getBookIdsById($aid){
$ch= curl_init();
$url='http://www.motie.com/book/'.$aid."/chapter";
//注意这里的?可以获取最少匹配项
$ru='/[\s\S]*?
getinfo.php
代码如下:
session_start();
require_once("SpiderTools.class.php");
if($_REQUEST["bid"]){
if(is_numeric($_REQUEST["bid"])){
SpiderTools::createBookById(trim($_REQUEST["bid"]));
}
else{
echo "
请输入正确的文章ID
";
}
}
?>
index.html
代码如下:
http://www.bkjia.com/PHPjc/754038.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/754038.htmlTechArticle利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说。 依赖项:curl 可以简单的看下,里面用到...