花式反爬之某众点评网

2019-04-25 11:50:00 +08:00
 Northxw

  某众点评网的反爬措施是真的🐮,但误伤率也比较高。如果没有加农炮(加强型爬虫代理 IP ),获取到的数据量会少之又少。

  除此之外,该网站设置了多种反爬措施,多种数据逻辑障碍等来 ban 爬虫,是我目前为止碰到的最难缠的网站。

  但是如果你真的造完该站点的爬虫程序,你会发现维护很累,基本上一天一个样(可能有点夸张)。但是作为训练目标,真的很有收获。

https://github.com/Northxw/Dianping 项目已提交 github,欢迎提交 issue。

8369 次点击
所在节点    Python
54 条回复
n329291362
2019-04-25 16:06:14 +08:00
@Northxw 他们客户端类似于 https 加密 好像没做反爬
Northxw
2019-04-25 16:21:03 +08:00
@dcalsky 你说的还是大众点评吗?

@JCZ2MkKb5S8ZX9pq 哈哈哈,现在互联网数据不都是这样搞嘛 大家都心知肚明

@n329291362 哦豁,还有这种操作,可以尝试一下啊
aver4vex
2019-04-25 16:24:01 +08:00
我碰到过必须开启 JavaScript 的网站,只能用 selinum 搞。
Northxw
2019-04-25 16:27:06 +08:00
@aver4vex 试试 pyppeteer 吧,要慢慢了解。不过 selenium 更大众化啦
dcalsky
2019-04-25 16:52:26 +08:00
@Aliennnnnn puppeteer 慢呀 高并发需求
tikazyq
2019-04-25 16:55:53 +08:00
已 star,考虑用 crawlab 来运行一下,https://github.com/tikazyq/crawlab
dcalsky
2019-04-25 16:56:37 +08:00
@Northxw 不是,一个需要登录的购物网站,我需要做下单
Northxw
2019-04-25 17:47:36 +08:00
@tikazyq 类似 Gerapy 的可视化工具嘛?看起来不错,已 star。

@dcalsky 可以告诉下地址嘛,我也试试啦。
crab
2019-04-25 17:58:21 +08:00
@aver4vex js 这种扣出相关函数算出符合数据就行了。无规律给脏数据就很麻烦了。
jccg90
2019-04-25 18:10:11 +08:00
这垃圾网站,别说爬虫了。。。人去看都费劲。。。
用 app 的接口爬还行
akira
2019-04-25 18:16:04 +08:00
反爬只能增加爬虫成本 并不能杜绝
Northxw
2019-04-25 18:28:27 +08:00
@crab 对的,大部分靠这种办法都能解决。

@jccg90 哈哈,有点画面感哦

@akira 对的
akira
2019-04-25 18:50:49 +08:00
@tikazyq crawlab 不错的样子,要是爬虫脚本能分享就好了
luanguang
2019-04-25 18:54:18 +08:00
大佬歪个楼……我想请问一下你是怎么提升爬虫技术水平的

我是一开始是使用 pyspider 爬取一些网站,然后对爬虫开始感兴趣,然后看书敲代码,学 scrapy 框架。不过遇到反爬厉害一点的网站就只会用 selenium+代理池强行怼……所以想问问有什么继续进阶的方向。
tikazyq
2019-04-25 19:14:59 +08:00
@akira 正在考虑这个功能,不过是个大功能,可以关注一下,近期会考虑开发
akira
2019-04-25 19:20:56 +08:00
@tikazyq 参考下神箭手 他们家做的挺不错的了
fenghuang
2019-04-25 19:44:32 +08:00
是不是必须有代理池才能玩
Northxw
2019-04-25 19:55:46 +08:00
@luanguang 平心而论,感觉自己还比较菜。
简单说:实践,实践,多实践。刷书后,多敲代码巩固,不管书上内容对个人来说多么通俗易懂,你不上手永元不知 Bug 所在。该过程可以完善你的知识框架。进阶的方向有很多:App,增量式,分布式( rabbit,celery 等),集群,大数据等,到时候自己决定。

@fenghuang 小爬虫,便宜的付费代理可以搞一下
miaomiao0323
2019-04-25 20:38:17 +08:00
@stephenliubp #16 我的理解是对数字做了一次自定义的加密,但是前端解密肯定是在 js 的啊,爬虫可以找到这段 js,把你的算法解出来
PP
2019-04-25 20:44:03 +08:00
@JCZ2MkKb5S8ZX9pq 哈哈哈哈,笑死我了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX