当前位置：Gxlcms > Python > python解析html开发库pyquery使用方法

python解析html开发库pyquery使用方法

时间：2021-07-01 10:21:17 帮助过：50人阅读

例如

代码如下:

导演: 汤姆·提克威 / 拉娜·沃卓斯基 / 安迪·沃卓斯基

编剧: 汤姆·提克威 / 安迪·沃卓斯基 / 拉娜·沃卓斯基

主演: 汤姆·汉克斯 / 哈莉·贝瑞 / 吉姆·布劳德本特 / 雨果·维文 / 吉姆·斯特吉斯 / 裴斗娜 / 本·卫肖 / 詹姆斯·达西 / 周迅 / 凯斯·大卫 / 大卫·吉雅西 / 苏珊·萨兰登 / 休·格兰特

类型: 剧情 / 科幻 / 悬疑

官方网站: cloudatlas.warnerbros.com

制片国家/地区: 德国 / 美国 / 香港 / 新加坡

语言: 英语

上映日期: 2013-01-31(中国大陆) / 2012-10-26(美国)

片长: 134分钟(中国大陆) / 172分钟(美国)

IMDb链接: tt1371111

官方小站:
电影《云图》

代码如下:

from pyquery import PyQuery as pq
doc=pq(url='http://movie.douban.com/subject/3530403/')
data=doc('.pl')
for i in data:
print pq(i).text()

输出

代码如下:

导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

用法

用户可以使用PyQuery类从字符串、lxml对象、文件或者url来加载xml文档:

代码如下:

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> doc=pq("")
>>> doc=pq(etree.fromstring(""))
>>> doc=pq(filename=path_to_html_file)
>>> doc=pq(url='http://movie.douban.com/subject/3530403/')

可以像jQuery一样选择对象了

代码如下:

>>> doc('.pl')
[, , , , , , , , , , , , , , , , , , , ]

这样，class为'pl'的对象就全部选择出来了。

不过在使用迭代时需要对文本进行重新封装：

代码如下:

for para in doc('.pl'):
para=pq(para)
print para.text()
导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

这里得到的text是unicode码，如果要写入文件需要编码为字符串。
用户可以使用jquery提供的一些伪类（但还不支持css）来进行操作，诸如：

代码如下:

>>> doc('.pl:first')
[]
>>> print doc('.pl:first').text()
导演

Attributes
获取html元素的属性

代码如下:

>>> p=pq('

')('p')
>>> p.attr('id')
'hello'
>>> p.attr.id
'hello'
>>> p.attr['id']
'hello'

赋值

代码如下:

>>> p.attr.id='plop'
>>> p.attr.id
'plop'
>>> p.attr['id']='ola'
>>> p.attr.id
'ola'
>>> p.attr(id='hello',class_='hello2')
[]

Traversing
过滤

代码如下:

>>> d=pq('

hello

world

')
>>> d('p').filter('.hello')
[]
>>> d('p').filter('#test')
[]
>>> d('p').filter(lambda i:i==1)
[]
>>> d('p').filter(lambda i:i==0)
[]
>>> d('p').filter(lambda i:pq(this).text()=='hello')
[]

按照顺序选择

代码如下:

>>> d('p').eq(0)
[]
>>> d('p').eq(1)
[]

选择内嵌元素

代码如下:

>>> d('p').eq(1).find('a')
[]

选择父元素

代码如下:

>>> d=pq('

Whoah!

there

')
>>> d('p').eq(1).find('em')
[]
>>> d('p').eq(1).find('em').end()
[
]
>>> d('p').eq(1).find('em').end().text()
'there'
>>> d('p').eq(1).find('em').end().end()
[
,
]

< 上一篇
php使用递归与迭代实现快速排序示例

下一篇 >
python实现网页链接提取的方法分享

人气教程排行

384次 1 对Python2.7pandas中的read_excel详解

383次 2 Python实现定时弹窗提醒

383次 3 python爬虫入门（3）--利用requests构建知乎API

382次 4 python如何爬取搜狗微信公众号文章永久链接的思路解析

381次 5 python字典的键可以相同吗

381次 6 python是一种面向什么的语言？

381次 7 python通过pil为png图片填充上背景颜色的方法

380次 8 python语言的编程模式有什么

380次 9 使用python获取进程pid号的方法

380次 10 Python中如何解决无限循环的问题

378次 11 怎么解决pip不是内部或外部命令

378次 12 python中def是什么意思

376次 13 对numpy中数组元素的统一赋值实例

374次 14 python的选择语句是什么语句

374次 15 Python中构造方法的解析（附示例）

373次 16 关于python中引入导入与自定义模块以及外部文件的实例分享

372次 17 python如何在不同类之间调用方法

372次 18 python中的【//】是什么运算符号

371次 19 python中╲t是什么

371次 20 python同时给多个变量赋值