您现在的位置是：亿华云 > 人工智能

以 jQuery 之名 - 爬虫利器 PyQuery

亿华云2025-10-02 21:10:12【人工智能】0人已围观

简介很多读者在学习了 Python 之后都想做一些爬虫程序，去网上采集数据或完成一些自动化操作。因此，我们也制作了一套爬虫实战课程，目前正在***的完善中，很快将和各位见面。等不及的朋友，可以先来看看这个

很多读者在学习了 Python 之后都想做一些爬虫程序，爬虫去网上采集数据或完成一些自动化操作。利器因此，爬虫我们也制作了一套爬虫实战课程，利器目前正在***的爬虫完善中，很快将和各位见面。利器

等不及的爬虫朋友，可以先来看看这个类似于 bs4 的利器网页分析模块——PyQuery。

如果说到 jQuery，爬虫熟悉前端的利器同学肯定不陌生，它可以简单优雅地对 html 文件进行定位、爬虫选择、利器移动等操作。爬虫而本文的利器主角 pyquery，支持以 jquery 的爬虫方式对 html 进行操作。因此非常适合有前端或 js 基础的同学使用。

废话不多说，一边看文章，一边打开编辑器，跟着我一探究竟吧。

1. 安装

安装过程比较简单

pip install pyquery

2. 入门使用

接下来，我们以分析简书首页文章为例，简单梳理 pyquery 的部分函数。

(1) 导入相关的库

分别导入网络请求库 requests、以及 pyquery 。云南idc服务商

import requests import pyquery

(2) 向 pyquery 导入数据

与 bs4 一样，处理网页首先建立一个 pyquery 对象。通过抓取到的网页内容初始化即可。

# 请求简书地址 url = http://www.jianshu.com/ req = requests.get(url) page = req.text # 导入 pyquery 处理 pq = pyquery.PyQuery(page)

pyquery 也可以直接调用内置的网络请求模块，从网址初始化：

url = http://www.baidu.com pq = pyquery.PyQuery(urlurl=url)

(3) 定位元素

pyquery 提供多种定位元素的方法，这里简单介绍三种，直接定位、根据 id 定位，根据 class 定位。

根据 html 标签直接定位：

# 直接定位 head 标签 pqpq_head = pq(head)

以上代码就是获取 html 中 < head>.......< /head> 标签内的内容。

根据 id 定位：

在简书首页源代码中可找到这么一段

根据 id 定位找到这个 li 标签，代码如下：

# 定位 id = note-11772642 的 li 标签 pqpq_id = pq(#note-11772642)

以上代码获取 id 名为 note-11772642 的标签，需要注意的是查询 id 时添加 # 前缀，这是 css 选择器语法。

根据 class 定位：

同样以刚才的为例

我们根据 class=have-img 去获取这个 li 标签

# 定位 class = have-img 的 li 标签 pqpq_class = pq(.have-img)

注意的是查询 class 时添加 . 前缀，这也是 css 选择器语法。

(4) 索引标签

在上一节的***有个小问题，香港云服务器我们知道 head 标签在 html 中只有一个，而 class 名为 have-img 的 li 标签可能有多个，我们该

如何遍历所有的 li 标签呢? 又该如何单独的取某一个 li 呢?

首先我们可以逐个遍历

# 遍历所有 class = have-img 的 li 标签 for li in pq_class: # 获取每一个 li 标签 pqpq_li = pq(li)

我们可以索引某一个 li 标签

使用.ep(index) 函数。

# 获取***个 li 标签 li_first = pq_class.ep(0) # 获取第二个 li 标签 li_second = pq_class.ep(1)

(5) 寻找标签

同样回到刚刚的那张图

在上一步，我们已经找到了所有的 li 标签，也知道如何取索引其中的元素，但我们现在要准确定位到某一个元素，比如上图中 id = note-11772642 这个 li 标签。

这时候 filter(selecter) 就派上了用场

li_spec = pq_class.filter(#note-11772642)

这样我们就找到了指定的这个 li 标签，需要注意的是， filter 函数只能在同一级标签中寻找，比如在这里只能过滤 li 标签，而不能定位 li 标签下的 a 标签、 div 标签等。

当然，针对这种情况， pyquery 为我们提供了另外一个函数 find(selector)，该函数用于寻找子节点，继续以上图为例，寻找该特定 li 标签下的 p 标签

p_tag = li_spec.find(p)

(6) 提取属性与值

以上我们讲了许多关于标签的知识，高防服务器现在来谈谈怎么获取标签内的属性和标签包裹的文本，实际的爬虫项目中，通常这是最重要的一步，比如从 a 标签中获取链接、从 li 标签或者 p标签中获取文本。

获取属性：

使用 attr() 函数，以我们之前获取的 li 标签为例，获取其中的 id 属性

# 获取 id 属性的方法 li_specli_spec_id = li_spec.attr(id) li_specli_spec_id_2 = li_spec.attr.id li_specli_spec_id_3 = li_spec.attr[id]

获取文本：

使用 text()函数，以我们之前得到的 p 标签为例，获取其中的文本。

string = p_tag.text()

到此，在爬虫中会使用到的函数就是这些了。

3. 小结

pyquery 还拥有操作文档树的能力，本篇文章着重介绍与爬虫相关的知识，所以就不再此详细叙述了，有兴趣的同学移步官方文档：

http://pythonhosted.org/pyquery/index.html

***，既然我们都分析了简书首页，请大家根据所学内容爬取简书首页所有的文章标题和文章链接，然后打印出来吧，像下图一样

【本文是专栏机构“Crossin的编程教室”的原创文章，转载请通过微信公众号(rossincode)联系原作者】

戳这里，看该作者更多好文

很赞哦!（14269）

上一篇：博大数据喜获“数字化转型十大贡献企业”奖，为数字中国贡献“智算”力量

下一篇： MWC 2023 |汇聚产业力量，共创“新一代智能运维”

站长推荐

友情链接

您现在的位置是：亿华云 > 人工智能

以 jQuery 之名 - 爬虫利器 PyQuery

相关文章

热门文章

站长推荐

友情链接