看看你的网站有哪些爬虫?有什么人访问你了?被哪些搜索引擎索引

2019-06-19 14:41:45 +08:00
 botsonar
接入站点: https://sdk.egoid.me/
站点自助接入,qq 交流群:727982278

等你来撩
3665 次点击
所在节点    程序员
30 条回复
botsonar
2019-06-20 11:48:42 +08:00
@uqf0663 试一试另一个策略,看看同一个用户在不通 IP 和 UA 下的频率,如果没有登录,你可以通过服务端下发 cookie 的形式标记用户,由于 pupeteer 这种工具其模拟效果是很好,但是效率比较低下,那些大规模占用带宽的可能是那些脚本爬虫;即使是 pupeteer 也是使用 chrome 的 cdp 协议,可以通过协议检测识别这种工具
botsonar
2019-06-20 11:50:23 +08:00
@uqf0663 如果 IP 误封率比较高,也可以使用 webrtc 内外网结合的方式实现 IP 策略
botsonar
2019-06-20 11:52:15 +08:00
@opengps 关于 UA 中的 IMEI 写的很好,另外一篇知乎的写的也不错,然后我发现很多 UA parser 没法解析像 appname 和 organization 这些信息
uqf0663
2019-06-20 12:11:58 +08:00
@botsonar 我当前的做法是首次进来就弹 qq 的 007 验证出来,验证通过后下发一个 cookie (这个 cookie 的值是利用 ip 跟 ua 还有其他一些因素组合 md5 后的结果),这个 cookie 请求 10~30 次(随机)以后失效,需要重新走 007 验证重新下发。多次请求以后那个 007 验证的难度会自动变大(例如从拼图验证变成点选倾斜物体验证),我自信拦住一般的非模拟浏览器的脚本爬虫没问题,但是他们貌似很轻松就突破了。
而且我的关键数据是页面留着一串加密信息,然后页面中有几个 ajax 请求,用于解密的随机种子通过这些请求的随机其中一个下发并执行解密还原到页面上,我认为突破这些的最方便做法就只有 pupeteer 类的工具了(就是等我的页面完全渲染完再取内容)。
uqf0663
2019-06-20 12:16:14 +08:00
@botsonar 又由于运营商们的大内网策略,导致我在 ban ip 这件事上很被动,webrtc 我之前没有了解过,我先去了解下,晚一点来此回复。希望本贴公开交流也能给其他爬虫的跟反爬虫的人仕提供些参考
locoz
2019-06-20 16:56:43 +08:00
@uqf0663 #24 从你的评论中可以看出你的网站是有一定的圈内知名度和信息唯一性的,所以那些针对你网站爬的人肯定会想尽办法破掉你加的反爬,然后你现在用的这个腾讯防水墙的验证码其实好几个打码平台都是有的了,所以...“我自信拦住一般的非模拟浏览器的脚本爬虫没问题,但是他们貌似很轻松就突破了”这是很正常的事情,即使别人自己破不了验证,也还是可以花钱接打码平台来破,只不过增加了点成本而已。
所以其实这方面你真没有什么办法的,你还能尝试做的就是多换换反爬措施,让对方感到厌烦,或许就不想搞你的网站了;或者就跟各大互联网企业一样,用法律手段解决问题,直接把爬你数据的对手网站全都告死。
uqf0663
2019-06-20 17:58:19 +08:00
@locoz 我不认为他们会用到打码平台,因为打码平台是需要成本的,我这是一个极其小众的行业,那些数据虽然我是独家的,但是不值钱,而且在我已知的直接竞争对手中,我是行业第一,我仍无盈利,因为太过小众,所以用户不多,愿意为此付费的更少,竞争对手中虽然有利用信息不对等忽悠用户付费的,但是付费的量并不能覆盖到打码成本。此处可能有疑问,既然连打码成本都覆盖不起,为什么会有大规模的分布式爬虫呢,此我猜测他们某个客户端是有用户基础的,他们利用这个客户端的用户电脑当肉鸡来做的爬虫。
uqf0663
2019-06-20 18:07:01 +08:00
@locoz 另外做为个人开发者(或是小公司)根本无法去告对手,连第一步的取证都是困难重重,也许你不知道律师的成本多贵,也不了解初级法院有多少划水的法官,如果你不小心遇到个坑比律师,那情况就更糟,折腾一趟下来至少几个月时间跟几万块没有了,而且这种技术相关的,初级法院一般解决不了,你得一审二审然后上诉去中级法院甚至去到省院才有可能解决,一般几年几十万就搭进去了,你能获得赔偿是多少呢?未知的,甚至是没有的,某些划水法官会在证据明确的情况下选择驳回双方诉求,你就只能接着上诉,直到遇到一个干实事的法官为止,总之对于个人开发者(或是小公司)而言走法律途径是一场豪赌。
uqf0663
2019-06-20 20:00:40 +08:00
@botsonar google 上翻了几篇 webrtc 的内容以后,还是搞不太懂 webrtc 具体是什么东西,看起来有点像 websocket 之类的东西,而且并不是所有浏览器都能够支持,有一篇说 safari 不支持(又有说支持的),搞不清楚,但是基于可能存在的不兼容,初步估计可能不太合适(因为我的网站用户群体不是 IT 人士,电脑小白更多一点,他们的浏览器可能都比较老旧,难以让他们升级)
botsonar
2019-06-21 10:06:45 +08:00
这边大家有空多关注下 github 部分新功能和改动会在 github 进行跟踪,如果有特别的需求或者规划,也可以在 issue 中提出来,因为有很多用户接入了,这个版本会持续开发

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/575474

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX