360 的用户进来看下,不想搞个大新闻

2016-03-31 18:19:18 +08:00
 badcode
今天在后台上看了一个关键字:健身

站点是没有健身这个专栏的
所以我相信最早那个 ip 的关键字是`人为输入`的
再看最上面的那个关键字搜索,
不看 ip 不会知道
来自`360 ,还不带 bot,spider,UA 都是 iPhone 的,够 6`
Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4


要么是用户手机里安装了 360 相关产品,要么你懂的
就奇怪了,人家自己手动输入关键字
你 360 凭什么去"模仿"人家行为,
万一给你"模拟"各种登陆,支付宝登陆什么的
1908 次点击
所在节点    问与答
9 条回复
isnowify
2016-03-31 18:29:25 +08:00
google,baidu shitu 都会这样搞
badcode
2016-03-31 18:44:14 +08:00
@isnowify
个人小站,不要搜索收录的,不要流量的,不搞 seo
已经屏蔽 UA 各种 bot,spider ,除非模拟 UA

if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java|Jullo|Apache-HttpAsyncClient|UniversalFeedParser|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|HaosouSpider|AhrefsBot|MQQBrowser|Mobile Safari|bingbot|Digincore bot|Python-urllib|python-requests|CPython|micromessenger|YandexBot|meanpathbot|360Spider|YisouSpider|qihoobot|Baiduspider|UptimeRobot|Twitterbot|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|linkdexbot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|MSIE 6.0|Tomato Bot|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" )

只能屏蔽 IP 段吗?
目前只做 robots,UA 来屏蔽
看日志,遵守规则的都给 return 403;了

或者说大家有没有更好的方法,就是不要搜索收录的
感谢
yeyeye
2016-03-31 22:06:08 +08:00
@badcode 竟然这么多规则 我觉得还不如搞白名单呢 浪费服务器性能是可耻的
billlee
2016-03-31 22:29:38 +08:00
@yeyeye 这只是一条正则而已
badcode
2016-03-31 23:05:58 +08:00
@yeyeye 白名单?

表示目前只会屏蔽 UA 和 IP 段
如果您能提供更好的方法
非常感谢
yeyeye
2016-04-01 01:08:12 +08:00
@billlee 但是正则也是需要 CPU 来处理啊
@badcode 你现在的是 UA 黑名单 我的意思是如果换成白名单可以短一些 处理速度或许会快些 当然啦 如果访问量不大的话 或许意义也不大 对于模拟 UA 的 没有办法 除非封 IP
techyan
2016-04-01 08:32:01 +08:00
用 CloudXNS 之类的 DNS ,在解析的时候配置搜索引擎蜘蛛都解析到 127.0.0.1 。
badcode
2016-04-01 12:07:23 +08:00
@yeyeye 小站,暂时不设白名单,谢谢
@techyan 去看了下 CloudXNS ,表示只有账号没有用过,可以试试,感谢告之
Khlieb
2016-04-01 14:58:57 +08:00
@badcode @yeyeye 微信的 robot.txt 值得研究借鉴

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267696

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX