YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?它会给我们流量吗?

2016-01-11 15:06:48 +08:00
 yeyeye
这些个参数,根本就不是我网站所拥有的,一上网搜索 YisouSpider 的神马搜索引擎站长都是想骂人, YisouSpider 蜘蛛的抓取速度又快,神马搜索的蜘蛛竟然还在网址后面加随机参数和值!

我就想问问,这个破搜索引擎真的会给你们来流量吗?

说真的,降低一下频率很难么……?遵守 robots.txt 很难么?我真是不懂这些做搜索引擎的。

网上还说神马搜索是阿里的,微博话题是#阿里神马搜索#……

神马搜索的网站 http://m.sm.cn http://sm.cn http://www.yisou.com [一搜搜索引擎] (电脑打不开搜索页面)

网站日志截图

网站日志备用图
http://i11.tietuku.com/a1dbfcc03ee42b8a.png

网友抱怨的就不发图了,大家自己点开就能看到鸟
https://www.baidu.com/s?wd=YisouSpider
https://www.google.com/#q=YisouSpider
2802 次点击
所在节点    问与答
18 条回复
yeyeye
2016-01-11 15:20:55 +08:00
最最不理解的就是在网址后面加随机参数,这不是 CC 攻击玩的那一套么……
popu111
2016-01-11 21:04:49 +08:00
一般都是直接 ban ,好歹 yisou 还看 robots.txt , 360 那种直接无视的才让人蛋疼(不过 360 有流量,一年见不到一个 yisou 来的人)
yeyeye
2016-01-11 21:24:12 +08:00
@popu111 看 robots 或许是好的,但是随机加参数访问还过快,这就有点太奇葩。合理的弄好,虽然不会爱,但是也不太会抱怨就是了。
popu111
2016-01-11 21:30:26 +08:00
@yeyeye yisou 蜘蛛被抱怨好多年了,还是先 disallow 吧
yeyeye
2016-01-11 22:26:58 +08:00
@popu111 我收不到你的 @
popu111
2016-01-11 22:30:12 +08:00
@yeyeye 不知为何我好像被降权的很厉害,发个贴都能变 3 天前
@Livid 能请问一下我有什么大过错么?
Hello1995
2016-01-11 22:46:16 +08:00
如果你用 Apache:

ine On

RewriteCond %{HTTP_USER_AGENT} .*(FooSpider) [NC]
RewriteRule ^.*$ http://zheshiyigebucunzaidewangzhan.com/ [R=301,L]

FooSpider 自行修改。
Andy1999
2016-01-11 22:50:56 +08:00
这点流量都扛不住么?
Hello1995
2016-01-11 22:53:16 +08:00
7# 更正: RewriteEngine On
dzxx36gyy
2016-01-12 00:31:52 +08:00
宜搜不但会发起 cc 一般的抓取,而且还会把页面转码,你的网页在手机端的宜搜结果是被宜搜转码的,并不会给你带来流量,可谓毒瘤……
Hello1995
2016-01-12 00:57:14 +08:00
@dzxx36gyy 不是宜搜,是一搜。“神马搜索”
msg7086
2016-01-12 01:02:28 +08:00
@Andy1999 能抗住不代表就要去抗。
别人扇你一巴掌也不会让你残疾,不代表别人就可以扇你玩了啊。

@yeyeye 直接 ip ban 一个段就好了,轻松愉快。
Andy1999
2016-01-12 01:18:47 +08:00
@msg7086 我觉得无所谓 你这比喻有问题
LEFT
2016-01-12 07:14:20 +08:00
你把包括 360 , yisou 在内的🕷️,统统重定向到 127.0.0.1 了
dzxx36gyy
2016-01-12 11:50:31 +08:00
@Hello1995 sorry ,一不小心叫错了,不过没搞错对象……宜搜的是 Easou ,这个 Yisou 我一直叫错_(:з」∠)_
doublleft
2016-01-12 12:22:31 +08:00
现在啊 招了几个阿里出来的就好意思说是阿里领军,搞了几个百度的就敢说自己和巨头合作。
我在阿里擦过玻璃,送过外卖,也算是上市公司合伙人了?
yeyeye
2016-01-12 14:22:03 +08:00
@Andy1999 看了一下频繁的时候 1 秒 5 次访问( php 页面)……那岂不是一天可以接受 45 万左右的流量……也正是最近看了日志才觉得写个过滤垃圾流量是很有必要的(很多扫漏洞的,有的一天暴力破解后台密码坚持了几天几夜,我还用的是虚拟主机,就害怕被管理咔嚓了)

如果是缓存到了倒也没关系……但是这搜索引擎居然还在随机字符……而且 wordpress 连 404 都是动态处理的,页面处理时间 0.5 秒左右!于是昨天忍无可忍写了个拦截的,每个请求消耗 0.0005 秒左右检查特征(符合规则就封 ip ,爽),但是大部分垃圾流量都干掉了。

@dzxx36gyy 蛋疼啊,原来如此,果断屏蔽!

@msg7086 wordpress 每个 404 页面 pv 要浪费 0.5 秒去处理,真心蛋疼

@doublleft 从一定程度上说,你在上班期间,你就是这个公司的一部分,当别人说 XXX 公司怎么怎么样的时候……说的不是公司……其实是人啊!
msg7086
2016-01-12 21:19:11 +08:00
#17 @yeyeye 这话说得不完全对。
有时候说的是人。
有时候说的是领导人 / 管理层。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/249888

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX