当前位置：Gxlcms > Python > Python提取网页中超链接的方法

Python提取网页中超链接的方法

时间：2021-07-01 10:21:17 帮助过：83人阅读

很多人在一开始学习Python，会打算用作爬虫开发。既然要做爬虫，首先就要抓取网页，并且从网页中提取出超链接地址。这篇文章给大家分享一个简单的方法，有需要的可以参考借鉴。

下面是最简单的实现方法，先将目标网页抓回来，然后通过正则匹配a标签中的href属性来获得超链接

代码如下：

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

更多Python提取网页中超链接的方法相关文章请关注PHP中文网！

< 上一篇
Python打包文件夹的方法小结(zip,tar,tar.gz等)
下一篇 >
Python实现压缩与解压gzip大文件的方法

人气教程排行

384次 1 对Python2.7pandas中的read_excel详解
383次 2 Python实现定时弹窗提醒
383次 3 python爬虫入门（3）--利用requests构建知乎API
382次 4 python如何爬取搜狗微信公众号文章永久链接的思路解析
381次 5 python字典的键可以相同吗
381次 6 python是一种面向什么的语言？
381次 7 python通过pil为png图片填充上背景颜色的方法
380次 8 python语言的编程模式有什么
380次 9 使用python获取进程pid号的方法
380次 10 Python中如何解决无限循环的问题
378次 11 怎么解决pip不是内部或外部命令
378次 12 python中def是什么意思
376次 13 对numpy中数组元素的统一赋值实例
374次 14 python的选择语句是什么语句
374次 15 Python中构造方法的解析（附示例）
373次 16 关于python中引入导入与自定义模块以及外部文件的实例分享
372次 17 python如何在不同类之间调用方法
372次 18 python中的【//】是什么运算符号
371次 19 python中╲t是什么
371次 20 python同时给多个变量赋值