时间:2021-07-01 10:21:17 帮助过:31人阅读
听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。
网址:http://www.cbssports.com/mlb/scoreboard
然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播
问题来了
以这个网址为例:(当各位大大看到时,也许赛事已经结束了)
ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR
小弟写的程序如下:
$game=array();
$ch = curl_init();
$search1=$_GET['searcharg'];
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);
curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);
….(进行字符串解析)
目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:
Pitcher:M. Mariot | # 48 RP
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB
不管是另存新档的网页或是curl 抓出来的结果为
Pitcher:
Game Stats
上面蓝色代表没有显示出来的,
目前我试过的方式,送cookie!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)
回复内容:
因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解
听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。
网址:http://www.cbssports.com/mlb/scoreboard
然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播
问题来了
以这个网址为例:(当各位大大看到时,也许赛事已经结束了)
ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR
小弟写的程序如下:
$game=array();
$ch = curl_init();
$search1=$_GET['searcharg'];
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);
curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);
….(进行字符串解析)
目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:
Pitcher:M. Mariot | # 48 RP
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB
不管是另存新档的网页或是curl 抓出来的结果为
Pitcher:
Game Stats
上面蓝色代表没有显示出来的,
目前我试过的方式,送cookie!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)
额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:
include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();
我遇到的问题 其实说穿了就是
...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:
目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK
神人求解
你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。
人气教程排行
-
174次
1
php如何获取跳转前的url
-
174次
2
php格林威治时间转换成当前时间的方法
-
174次
3
为什么php不能做大型系统?
-
174次
4
range函数怎么用
-
174次
5
php中计算页面加载时间几种方法总结_PHP教程
-
174次
6
求帮助,关于paypal支付返回值修改订单状态
-
174次
7
typecho怎么配置文章内容页?
-
174次
8
PhpStorm左侧structure不显示文件的方法列表是这么回事?
-
174次
9
查看PHP的环境变量_PHP
-
174次
10
PHP Primary script unknown 解决方法总结
-
174次
11
php的命名空间与自动加载实现方法
-
174次
12
解决laravel 出现ajax请求419(unknown status)的问题
-
173次
13
php 如何删除mysql记录
-
173次
14
PHP如何替换数组中的指定元素
-
173次
15
怎么去除字符串中非汉字、非字母、非数字的字符
-
173次
16
mysql如何一次执行多条SQL语句
-
173次
17
修改header里面的Connection为close解决方法
-
173次
18
PHP基于session.upload_progress 实现文件上传进度显示功能详解
-
173次
19
php5.6.x到php7.0.x特性小结
-
172次
20
php为什么会出现504错误