您现在的位置是：亿华云 > 系统运维

手把手教你使用Scrapy框架来爬取北京新发地价格行情（实战篇）

亿华云2025-10-03 02:18:43【系统运维】5人已围观

简介大家好!我是霖hero。上个月的时候，我写了一篇关于IP代理的文章，手把手教你使用XPath爬取免费代理IP;前几天，我又发布了第二篇文章，这篇文章主要是讲Scrapy理论知识的，手把手教你使用scr

大家好!我是手把手教使用霖hero。上个月的框架时候，我写了一篇关于IP代理的北京文章，手把手教你使用XPath爬取免费代理IP;前几天，格行我又发布了第二篇文章，情实这篇文章主要是战篇讲Scrapy理论知识的，手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇)，手把手教使用今天在这里分享我的框架第三篇文章，关于Scrapy实战的北京应用文章，希望大家可以喜欢。格行

前言

关于Scrapy理论的情实知识，可以参考我的战篇上一篇文章，这里不再赘述，手把手教使用直接上干货。框架

实战演练

爬取分析

首先我们进入北京新发地价格行情网页并打开开发者工具，北京如下图所示：

经过简单的查找，发现每个getPriceData.html存放着价格行情的数据，由此可得，我们可以通过getPriceData.html来进行数据的获取。

观察Headers请求，如下图所示：

发现它是POST请求，源码库请求URL链接是http://www.xinfadi.com.cn/getPriceData.html，current是翻页的重要参数，limit是每页有多少行数据，我们可以构造消息体，代码如下所示：

data={ limit: 20, current:page }

通过scrapy.Request()方法将消息体传入到参数里面。

或者我们可以根据测试和观察规律，自己构造URL链接，通过观察分析，请求的URL链接可以为：

http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3

创建Spider爬虫

分析北京新发地价格行情后，接下来我们首先创建一个Scrapy项目，使用如下命令：

scrapy startproject Vegetables

这样我们就成功创建了一个Scrapy项目，项目文件如下所示：

接下来创建spider爬虫，使用如下命令：

scrapy genspider vegetables www.xinfadi.com.cn

创建后vegetables.py内容如下所示：

import scrapy class VegetablesSpider(scrapy.Spider): name = vegetables allowed_domains = [www.xinfadi.com.cn] start_urls = [https://www.xinfadi.com.cn] def parse(self, response): pass

提取数据

在提取数据前，我们首先把要爬取的数据字段在items.py文件中定义好，代码如下所示：

import scrapy class VegetablesItem(scrapy.Item): # define the fields for your item here like: productName = scrapy.Field() lowPrice=scrapy.Field() highPrice=scrapy.Field()

这里我们定义了三个字段分别是productName、lowPrice、highPrice

定义好字段后，接下来将在创建的vegetables.py文件中进行数据的提取，具体代码如下

import scrapy from Vegetables.items import VegetablesItem class VegetablesSpider(scrapy.Spider): name = vegetables allowed_domains = [www.xinfadi.com.cn] def start_requests(self): for i in range(1, 3): url = fhttp://www.xinfadi.com.cn/getPriceData.html?limit=20&current={ i} yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): html = response.json() fooddata = html.get(list) for i in fooddata: item=VegetablesItem() item[highPrice] =i.get(highPrice), item[lowPrice] = i.get(lowPrice), item[prodName] = i.get(prodName), yield item

首先我们导入vegetablesitem，使用start_requests函数实现翻页，大家可以使用刚才我们所讲的方法实现翻页，实现翻页后，我们通过编写parse()方法实现数据的亿华云计算获取，首先我们把引擎响应的数据以json()格式存放在html里面，调用get()方法来提取我们想要的数据，最后通过yield生成器返回给引擎。

最后我们在settings.py设置引擎的启动，代码如下所示：

ITEM_PIPELINES = { Vegetables.pipelines.VegetablesPipeline: 300, }

在这里我们就不保存数据在MongoDB数据库里面了，我们直接启动Spider爬虫并把数据以csv格式输出，使用如下命令：

scrapy crawl vegetables -o 11.c

运行结果如下：

好了，Scrapy框架爬取北京新发地就讲解到这里了，感谢观看!!!

总结

大家好，我是霖hero。这篇文章基于上篇理论文章，主要给大家分享了Scrapy爬虫框架的实战内容，Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，是提取结构性数据而编写的应用框架，其架构清晰，模块之间的耦合程度低，可扩展性极强。

【编辑推荐】

鸿蒙官方战略合作共建——HarmonyOS技术社区任何Ubuntu用户都应安装的四大Linux应用程序工信部：5G手机终端连接数达4.19亿户只需两步，云服务器提供商教会你正确处理旧手机，变废为宝 MySQL的三条JOIN子句使用指南苹果iOS 15再次迎来更新，除了实况文本外，还有五个新发现

很赞哦!（3632）

上一篇：鲲鹏DevKit助力轩辕AI科学计算平台DataLab原生开发，性能提升89%

下一篇：数据中心在云端和未来的优势