时间:2021-07-01 10:21:17 帮助过:32人阅读
这不是简但的正则就可完成的
比如
这不是简但的正则就可完成的
比如
def build_list_urls_6(page=3): page=page+1 ret=[] for i in range(1,page): ret.append('http://www.cnproxy.com/proxy%(num)01d.html'%{'num':i}) return retdef parse_page_6(html=''): matches=re.findall(r'''''',html,re.VERBOSE) ret=[] for match in matches: ip=match[0] port=match[1] type=-1 #该网站未提供代理服务器类型 area=match[2] if indebug:print '6',ip,port,type,area area=unicode(area, 'cp936') area=area.encode('utf8') ret.append([ip,port,type,area]) return ret ([^&]+) #ip \:([^<]+) #port HTTP [^<]+ ([^<]+) #area
但他的端口(port)取得也不对!
但他的端口(port)取得也不对! function parsePort($str)
{
$str = str_replace('document.write(":"', '', $str);
$str = str_replace(')', '', $str);
$str = str_replace('+x', '8', $str);
$str = str_replace('+f', '0', $str);
$str = str_replace('+z', '3', $str);
$str = str_replace('+c','1', $str);
$str = str_replace('+a','2', $str);
$str = str_replace('+i','3', $str);
$str = str_replace('+l','9', $str);
return ':'.$str;
}
谢谢版主大人,解决了
那恭喜你了
不过你还要注意检查一下,每一页的
是否都一样