时间:2021-07-01 10:21:17 帮助过:9人阅读
有大大说用 phantomjs来抓取html
目前的js如
var page = require('webpage').create();
var url = 'http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW';
page.open(url, function (status) {
var js = page.evaluate(function () {
return document;
});
console.log(js.all[0].outerHTML);
phantom.exit();
});
误错,显示不出正确的hmtl
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用
exec("start d:\phantomjs script.js ")
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解
2014 05 23 更新
之前在网站上有提出,有抓到几个数据。
先看一下我的程序如下:
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL";
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);
$data = curl_exec($ch);
preg_match_all('/(.?)<\/span>/is',$data,$teamCity);
preg_match_all('/(.?)<\/span>/is',$data,$teamName);…….以下为正规化
未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)
里面会有一个
或是
<
div class=”batter-pitcher fleft”>
<
table>里面的
的资料都抓不出来
重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 JS 的 batter_ingame_stats function是跑「进行比赛中的」
而另一个function function() { CBSi.app.BaseRunners = function(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。
很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。
跪求各位大大给个方向。
这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277
目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL
回复内容:
小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。
有大大说用 phantomjs来抓取html
目前的js如
var page = require('webpage').create();
var url = 'http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW';
page.open(url, function (status) {
var js = page.evaluate(function () {
return document;
});
console.log(js.all[0].outerHTML);
phantom.exit();
});
误错,显示不出正确的hmtl
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用
exec("start d:\phantomjs script.js ")
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解
2014 05 23 更新
之前在网站上有提出,有抓到几个数据。
先看一下我的程序如下:
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL";
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);
$data = curl_exec($ch);
preg_match_all('/(.?)<\/span>/is',$data,$teamCity);
preg_match_all('/(.?)<\/span>/is',$data,$teamName);…….以下为正规化
未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)
里面会有一个
或是
<
div class=”batter-pitcher fleft”>
<
table>里面的
的资料都抓不出来
重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 JS 的 batter_ingame_stats function是跑「进行比赛中的」
而另一个function function() { CBSi.app.BaseRunners = function(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。
很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。
跪求各位大大给个方向。
这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277
目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL
这么写
var page = require('webpage').create();
page.open('http://segmentfault.com/', function(status) {
var ua = page.evaluate(function() {
return document.body.outerHTML;
});
console.log(ua);
phantom.exit();
});
人气教程排行
-
174次
1
php如何获取跳转前的url
-
174次
2
php格林威治时间转换成当前时间的方法
-
174次
3
为什么php不能做大型系统?
-
174次
4
range函数怎么用
-
174次
5
php中计算页面加载时间几种方法总结_PHP教程
-
174次
6
求帮助,关于paypal支付返回值修改订单状态
-
174次
7
typecho怎么配置文章内容页?
-
174次
8
PhpStorm左侧structure不显示文件的方法列表是这么回事?
-
174次
9
查看PHP的环境变量_PHP
-
174次
10
PHP Primary script unknown 解决方法总结
-
174次
11
php的命名空间与自动加载实现方法
-
174次
12
解决laravel 出现ajax请求419(unknown status)的问题
-
173次
13
php 如何删除mysql记录
-
173次
14
PHP如何替换数组中的指定元素
-
173次
15
怎么去除字符串中非汉字、非字母、非数字的字符
-
173次
16
mysql如何一次执行多条SQL语句
-
173次
17
修改header里面的Connection为close解决方法
-
173次
18
PHP基于session.upload_progress 实现文件上传进度显示功能详解
-
173次
19
php5.6.x到php7.0.x特性小结
-
172次
20
php为什么会出现504错误