放出去的爬虫被泛解析站群困住了,如何才能爬出去?

2016-09-07 19:40:47 +08:00
 dsg001

hxxp://58938.ytnrip.cn/ hxxp://02344.125091.com/ hxxp://48455.66539.co/ hxxp://30362.ert34sd.pw/ hxxp://89219.57truy65.pw/ hxxp://61834.i9wan.com/ hxxp://62787.jiudiangege.com/ hxxp://38674.635948.com/ hxxp://94240.66528.co/ hxxp://45739.77366.co/ hxxp://06105.125036.com/ hxxp://47877.55973.co/ hxxp://67569.744526.com/ hxxp://65439.800kk.com/ hxxp://60305.929348.com/ hxxp://88861.99973.info/ hxxp://28813.380009.club/ hxxp://67356.195763.com/

大概这种站

4513 次点击
所在节点    Python
14 条回复
hack
2016-09-07 19:45:00 +08:00
我的站群一天就能让百度谷歌神马爬掉几个 G ,人也淡定了
wjm2038
2016-09-07 19:55:35 +08:00
@hack 来个域名看看
hack
2016-09-07 19:58:08 +08:00
@wjm2038 不来,淡定啊,爬虫能识别出来站群的话,就能跳出,实际上现有搜索引擎识别站群的能力都很有限
wjm2038
2016-09-07 20:05:49 +08:00
@hack 楼主给的网站我看了。。爬虫是会自己停止么。。这种感觉不是自主学习的爬虫都得困里面
hack
2016-09-07 20:12:21 +08:00
@wjm2038 爬虫会记录下自己的任务,下次继续爬,基本上一个月爬虫爬掉几百 G 很正常的,反正站群就是引流的,无所谓了,只要不爬死 server 就行
zhjits
2016-09-07 21:58:36 +08:00
要么域名里面有四位以上纯数字就扔掉,要么给子域名随机动一个 bit 再抓一次,如果页面相同部分超过 90% 就判断成辣鸡站
dsg001
2016-09-08 07:08:27 +08:00
@zhjits 相似度没用,全部都是随机调用, js 写入框架
wyntergreg
2016-09-08 09:10:47 +08:00
爬过的站你不记录吗,别走回头路总是行的吧
dsg001
2016-09-08 09:43:16 +08:00
@wyntergreg 泛解析的站群,无限二级域名,记录也没用
bombless
2016-09-08 14:40:10 +08:00
记录二级域名的访问数量,然后限制每个二级域名的访问数吧
至于说大量使用三级、 4 级域名的站,不爬也罢, 233
xderam
2016-09-08 17:14:44 +08:00
一般的域名不太会超过百个吧,先判断下域名个数,然后再爬啊。
dsg001
2016-09-08 19:57:43 +08:00
@xderam
@bombless
限制二级域名数量误伤太大, github.ioblogspot.com 等都是大量二级域名
exch4nge
2016-09-09 08:26:02 +08:00
@dsg001 可以获取下主域名的排名
haitang
2016-09-09 15:07:54 +08:00
如果是泛解析,可以在某主域二级域名过多时,尝试进行无意义的多个二级域名解析,如随机几位英文+数字组合,进行多次验证,可以解析且打开不是 404 等,基本都是垃圾站了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/304638

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX