花式反爬之某众点评网

2019-04-25 11:50:00 +08:00

Northxw

某众点评网的反爬措施是真的🐮，但误伤率也比较高。如果没有加农炮（加强型爬虫代理 IP ），获取到的数据量会少之又少。

除此之外，该网站设置了多种反爬措施，多种数据逻辑障碍等来 ban 爬虫，是我目前为止碰到的最难缠的网站。

但是如果你真的造完该站点的爬虫程序，你会发现维护很累，基本上一天一个样（可能有点夸张）。但是作为训练目标，真的很有收获。

https://github.com/Northxw/Dianping 项目已提交 github，欢迎提交 issue。

9067 次点击

所在节点

Python

54 条回复

aver4vex

2019-04-25 20:48:46 +08:00

@crab 我爬的那个网站是先检测浏览器是否启用 js，然后服务端负责跳转到不同页面。要是用的是 react，node，vue 之类的还倒好搞。

aver4vex

2019-04-25 20:49:26 +08:00

@Northxw 试一下，看看性能跟 selinum 比咋样。

matsuz

2019-04-25 21:39:49 +08:00

大众点评虽然爬起来比较麻烦，不过还好吧

最麻烦的我感觉是天猫淘宝的搜索页

redsonic

2019-04-25 21:43:33 +08:00

说实在的,啥时候有基于人工智能的爬虫.

Northxw

2019-04-25 22:04:53 +08:00

@matsuz 你说的是基于登录界面的抓取吗？

@redsonic 爬虫的趋势在向智能化系统方面发展，不过最终留下来的肯定是大虫啦

yanzixuan

2019-04-26 10:16:47 +08:00

@matsuz 淘宝？我正常使用都显示不了。

rocketman13

2019-04-29 14:06:52 +08:00

问一下计算偏移量的公式在那个文件可以找到呢

Northxw

2019-04-29 16:39:43 +08:00

@rocketman13 可以的，数字的偏移量计算比较固定，文字的偏移量计算比较多变，我在 md 文档里面有说明，你可以看下

bituplink

2019-04-30 08:15:09 +08:00

@PP 可以看下这个图,我也刚尝试爬虫,但是觉得这个图让我更好的理解了爬虫与反爬虫的思路
http://www.bituplink.com/python-crawler-study-six-level-graph.html

2019-04-30 23:25:36 +08:00

@bituplink 谢谢您的推荐和分享！祝好！

Don9

2019-05-01 10:02:08 +08:00

@Northxw 楼主你好，我是一个学生，最近在做一个社会调查，需要一个市级城市的餐饮数据，自己不是学编程专业的，对于大众点评这种有反爬虫网站实在是力不从心，您能帮我爬取一份数据么，如果可以，可以联系我 QQ：NjIwMDAwMjY1，万分感谢.

Northxw

2019-05-01 18:24:49 +08:00

@Don9 第一次见全英文扣扣号

Don9

2019-05-01 20:59:22 +08:00

@Northxw BASE64 编码

Northxw

2019-05-01 22:16:45 +08:00

@Don9 这个就有点骚了，也不给点提示

第 3 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558529

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.