花式反爬之某众点评网

2019-04-25 11:50:00 +08:00
 Northxw

  某众点评网的反爬措施是真的🐮,但误伤率也比较高。如果没有加农炮(加强型爬虫代理 IP ),获取到的数据量会少之又少。

  除此之外,该网站设置了多种反爬措施,多种数据逻辑障碍等来 ban 爬虫,是我目前为止碰到的最难缠的网站。

  但是如果你真的造完该站点的爬虫程序,你会发现维护很累,基本上一天一个样(可能有点夸张)。但是作为训练目标,真的很有收获。

https://github.com/Northxw/Dianping 项目已提交 github,欢迎提交 issue。

8388 次点击
所在节点    Python
54 条回复
aver4vex
2019-04-25 20:48:46 +08:00
@crab 我爬的那个网站是先检测浏览器是否启用 js,然后服务端负责跳转到不同页面。要是用的是 react,node,vue 之类的还倒好搞。
aver4vex
2019-04-25 20:49:26 +08:00
@Northxw 试一下,看看性能跟 selinum 比咋样。
matsuz
2019-04-25 21:39:49 +08:00
大众点评虽然爬起来比较麻烦,不过还好吧

最麻烦的我感觉是天猫淘宝的搜索页
redsonic
2019-04-25 21:43:33 +08:00
说实在的,啥时候有基于人工智能的爬虫.
Northxw
2019-04-25 22:04:53 +08:00
@matsuz 你说的是基于登录界面的抓取吗?

@redsonic 爬虫的趋势在向智能化系统方面发展,不过最终留下来的肯定是大虫啦
yanzixuan
2019-04-26 10:16:47 +08:00
@matsuz 淘宝?我正常使用都显示不了。
rocketman13
2019-04-29 14:06:52 +08:00
问一下计算偏移量的公式在那个文件可以找到呢
Northxw
2019-04-29 16:39:43 +08:00
@rocketman13 可以的,数字的偏移量计算比较固定,文字的偏移量计算比较多变,我在 md 文档里面有说明,你可以看下
bituplink
2019-04-30 08:15:09 +08:00
@PP 可以看下这个图,我也刚尝试爬虫,但是觉得这个图让我更好的理解了爬虫与反爬虫的思路
http://www.bituplink.com/python-crawler-study-six-level-graph.html
PP
2019-04-30 23:25:36 +08:00
@bituplink 谢谢您的推荐和分享!祝好!
Don9
2019-05-01 10:02:08 +08:00
@Northxw 楼主你好,我是一个学生,最近在做一个社会调查,需要一个市级城市的餐饮数据,自己不是学编程专业的,对于大众点评这种有反爬虫网站实在是力不从心,您能帮我爬取一份数据么,如果可以,可以联系我 QQ:NjIwMDAwMjY1,万分感谢.
Northxw
2019-05-01 18:24:49 +08:00
@Don9 第一次见全英文扣扣号
Don9
2019-05-01 20:59:22 +08:00
@Northxw BASE64 编码
Northxw
2019-05-01 22:16:45 +08:00
@Don9 这个就有点骚了,也不给点提示

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX