您现在的位置是:亿华云 > 域名
我爬取分析美团网,原来北京上海Top10美食是它们
亿华云2025-10-08 21:04:56【域名】5人已围观
简介数据爬取三步曲之前方有坑工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。然而***的结果是中午晚饭都没有时间去吃了。。。情况如下Chrome F12直接定位
数据爬取三步曲之前方有坑
工作需求需要采集OTA网站的分析美食数据,某个城市的美团p美饭店类型情况等。对于老饕来说这不算个事。网原。北京。上海食们然而***的分析结果是中午晚饭都没有时间去吃了。。美团p美。网原情况如下
Chrome F12直接定位get请求,北京response的上海食们结果是json,研究下get的参数发现有个奇怪的参数token?!
先不管他直接修改参数翻页请求数据!!!
数据爬取三步曲之开始填坑
问题来了!纠结半天后发现这个token是有时效的,而且是分析js生成的。。美团p美。网原这也不是北京问题,get请求行不通我们还有selenuim。上海食们悲催的服务器租用是美团真的是大厂直接封杀selenuim
数据爬取三步曲之将坑填平
又回到原点。没办法只能从token下手了经过一番查找发现一个js文件
嗯。。。好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。只是PyV8安装过程太心酸
废话不多说直接上代码:
我把js文件存放到本地python直接使用PyV8直接解析执行token的js事件
程序自动生成token,迫不及待接续解析json数据入库
测试完成先抓取北京和上海数据进行数据可视化
在统计师发现美团还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个
数据可视化
北京、上海美食各类型数量占比情况
看以看出川湘、烧烤烤肉和西餐在两地的数量占比都是最多的网站模板。撸串、麻小果然不分南北。
数据中有每家店的品论数量我们可以从中分析出每一类美食的总评论情况来展示受欢迎情况,因展示效果我们只展示top10
北京、上海市top10美食情况
北京和上海两地火锅荣登榜首哈
下面我们对比下两地同类美食的平均价格的情况:
魔都消费水平已经超过帝都啦。。。哈哈哈
以上只是个人简单分析不代表权威发布仅供娱乐,欢迎各界朋友交流学习。
好了我的泡面好了。。。嗯真香!!!
作者:Kying,西二旗程序单身汪一枚。从事智慧旅游、数据挖掘。新晋python 小白,希望与志同道合者一起煮酒论英雄,数据森麟特邀作者。
很赞哦!(18)
相关文章
- 为了避免将来给我们的个人站长带来的麻烦,在选择域名后缀时,我们的站长最好省略不稳定的后缀域名,比如n,因为我们不知道策略什么时候会改变,更不用说我们将来是否还能控制这个域名了。因此,如果站长不是企业,或者有选择的话,如果不能选择域名的cn类,最好不要选择它。
- 蚂蚁集团成立数据库独立公司OceanBase,年内将发布重大版本升级
- 讲讲Redis缓存更新一致性
- 不同编程语言是如何完成同一件事
- 网站页面结构改版,仅是页面样式发生变化,不会对排名、收录有影响;只有涉及到页面URL改变,才会对网站排名、收录有影响。
- 什么是iq域名?iq域名的常见问题
- 如何编写干净的JavaScript代码?
- Eslint 的实现原理,其实挺简单
- 四、长串数字域名
- Oracle SQL性能优化40条 | 收藏了!