鉴于自己能力有限,在此重金寻求反爬虫技术

2018-12-26 11:31:02 +08:00
 frozenway

昨天下班时,归心似箭的我收拾好东西,就迫不及待的夺门而下班。不料,一只脚刚迈出公司大门,就被 boss 叫住。我顿时懵了,什么事?然后忧心忡忡的来到 boss 的办公司,一聊。原来有个技术需求,大概是这样的:公司的业务是在各大平台上投放我们自己的产品的网页广告的,但是网页页面有些夸张的词语,导致在很多平台投放时被这些平台的爬虫检测到有这些词语,进而风账户。所以 boss 的意思是能不能做到网页的内容只能让客户看得到而爬虫看不到!!!也就是屏蔽掉这些爬虫。鉴于我自己糟糕的 php 技术,boss 说我能力有限,估计做不了,所以让我广发英雄帖,招募来自五湖四海,大江南北的仁人易士,大牛大神。只要能解决这个问题,价钱随便开!!!

7598 次点击
所在节点    程序员
62 条回复
o0
2018-12-26 11:36:09 +08:00
个人最近倒是弄过一些,暂时是没有类似烦恼了,不过这个本身也是在用户体验和被爬之间权衡,没有完美的方法。
当然像你们这个相对容易点,毕竟只是为了不被检测。
frankyxu
2018-12-26 11:36:29 +08:00
关键词可以转化为图片展示,或者整体内容转化为图片
d7101120120
2018-12-26 11:38:36 +08:00
转图片+1,为了规避广告法很多商家也都是把宣传词都转成图片防止被职业举报人的工具检测到的。
frozenway
2018-12-26 11:39:13 +08:00
@frankyxu 试过了把页面所有内容都转化为图片,依然被检测到
Arnie97
2018-12-26 11:40:07 +08:00
在关键词中间插入一些不可见的内容,一般的爬虫不会
noahsophie
2018-12-26 11:40:35 +08:00
有人工审核的
kltt22
2018-12-26 11:42:07 +08:00
JS 加载,css 乱序隐藏。真要是爬虫,一般会死在 js 加载上
frozenway
2018-12-26 11:42:42 +08:00
@Arnie97 要防的并非是一般的爬虫
xeaglex
2018-12-26 11:45:09 +08:00
加载页面先输入验证码就行了
lisces
2018-12-26 11:48:17 +08:00
有随机抽检,人工审核,还有同行举报,就你这需求想一个反爬虫就解决有点不够吧?
kulove
2018-12-26 11:48:33 +08:00
把夸张的描述去掉...
ioven
2018-12-26 11:49:28 +08:00
替换字体 类似猫眼
frozenway
2018-12-26 11:51:44 +08:00
@lisces 说的对,就是要解决这些问题,阁下能够解决这些问题吗?重酬
liyer
2018-12-26 11:52:35 +08:00
###用 iconfont 替代文字

```
.font1:before{
content:'/xxx1';
}
.font2:before{
content:'/xxx2';
}
```

###页面加载
```
<div>
这里一段文<i class="font1"></i>说明包含<i class="font2"></i>蔽关<i class="font3"></i>词
</div>
```
frozenway
2018-12-26 11:52:49 +08:00
@ioven 可以替换?不是很明白
amolice
2018-12-26 11:52:59 +08:00
@kulove 这...
frozenway
2018-12-26 11:54:29 +08:00
@liyer 这个能躲过爬虫检测?
lifeintools
2018-12-26 11:56:08 +08:00
这种没有一劳永逸的方案。
t6attack
2018-12-26 12:01:59 +08:00
任何了解网站运转逻辑的人,都能纸上谈兵的讲出一堆,实际实现是另一回事。
我也来扯两句:
根据请求特征,返回特定内容。最好不要彻底屏蔽他们。比如定位爬虫和平台人员的 IP 段、UA,范围压的越小越好。对他们返回特制的“没毛病的广告”。
可以自己主动加上举报按钮,把所有点举报的用户记下来,cookie/storage 打上标记。以后对他们展现特制广告。
Huelse
2018-12-26 12:02:15 +08:00
一种是转图片,还有一种是加隐藏乱码 div 于每个字之间,我一般是这么做的,当然还有很多细节可以操作

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/521089

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX