突然想到一种简单的反爬虫方法，大家觉得可行性如何？

fiht

2017-03-21 16:35:44 +08:00

爬虫反不了的。
我觉得 @jiangzhuo 说得对，爬虫搞到后面就是 AI 的斗争。
现在爬虫界最难搞的算是 Google 的那种点击的验证码和滑动验证码。
以极验为例，就很难搞。后台机器学习出模型，前台的滑动数据给后台验证。验证不过就不让访问（ AI 反爬虫）
作为爬虫方要做的就是怎么让机器滑出来的轨迹能被对方接受，也需要用到数据搞机器学习（ AI 爬虫）

we3613040

2017-03-21 16:50:01 +08:00

@fiht 极验证也可以破解。我之前公司就用那个就被破解了

zaishanfeng

2017-03-21 16:53:05 +08:00

没访问 10 个页面弹一个 recaptra

zaishanfeng

2017-03-21 16:56:14 +08:00

分析 nginx 日志对于 pv 过多的 isp ，属于机房的相似 ip 将其加入黑名单，首次访问即弹 recaptra

Technetiumer

2017-03-21 18:56:07 +08:00

对搜索引擎的 IP 段都显示正常纯文本内容，其他 IP 包括用户用楼上的各种牛逼反爬方式，但是需要收集搜索引擎 IP

cdwyd

2017-03-21 19:10:46 +08:00

@practicer
这么巧，刚好有人让采集这个。前后用了好几个小时才找到了通用的方法。

cdwyd

2017-03-21 19:19:14 +08:00

@jininij
其实，真的是一行一行调试的，我就干过。和你的思路差不多，变量名随机，函数名随机，逻辑结构都是随机的。

kaneg

2017-03-21 19:38:33 +08:00

道高一尺，魔高一丈。除非你一直更新策略，否则没有一劳永逸的对策。最近很火的人工智能自我学习倒是个有可能持续起作用

neurocomputing

2017-03-21 22:42:11 +08:00

这思路并不新而且也不难实施但是没有什么实际的用
只要人家想抓怎么都能抓

内容防盗更多的是需要技术之外的东西

crab

2017-03-21 22:48:02 +08:00

@practicer http://club.m.autohome.com.cn/bbs/thread-c-3170-60727592-1.html

victor

2017-03-21 23:05:48 +08:00

不如每次看你的网站，都要发手机验证码好不好

falcon05

2017-03-21 23:23:40 +08:00

@notgod 很好奇 cdn 这个，具体是怎么做？

mingyun

2017-03-21 23:42:32 +08:00

@dsg001 猫眼这个厉害了

nazhenhuiyi294

2017-03-22 09:03:25 +08:00

@friskfly 请教一下,怎么用浏览器爬的

practicer

2017-03-22 11:42:51 +08:00

@crab 谢谢啊

nthhdy

2017-03-22 11:49:42 +08:00

@practicer
每个标点或者常用字都是一个 span 标签,用她的 class 来表示是逗号还是句号等.
但 class 名称对应哪个汉字,这个每次都在变.
每一楼有一段 javascript,uglify 后的.class 名称到汉字的对应关系,就在这里.执行 js 代码的过程中,js 调用了 DOM 接口,把相应的 css rule 插入到该 class 的节点中(设置了 content 属性),汉字就显示出来了.

根据上面的原理,我们不必管它 js 里面做了什么,只要看懂它最终调了哪个接口(我记得好像是 style node 的 insertRule 函数),用自己的函数将它替换,就能得到 class 到真实汉字的对应关系.
大体的思路就是这样.

比较罗嗦,希望我说明白了 :)

dearmymy

2017-03-22 12:42:43 +08:00

只要针对你的爬虫都没用

pyengwoei

2020-03-10 00:14:45 +08:00

@darluc 有联系方式吗