数字公司搞“分布式爬虫”?

2012-09-02 14:46:02 +08:00
 ihacku
最早看到的是7月18号这条推 https://twitter.com/quakewang/status/225773315527176193

‏@quakewang
发现网站日志里面出现了一些奇怪的404错误,以为是代码写错导致用户误点击,结果查了一圈发现是奇虎的爬虫,问题是这些链接是非公开,猜测是用户使用了360浏览器,然后360收集数据供qihoobot去爬,真是太恶心了

然后是接下来看到百度工程师8月31号的微博 http://weibo.com/2246954235/yzGrucOxV

接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

公司内部网站(需要vpn+动态口令才能访问)也被360抓了,这是怎么回事
2857 次点击
所在节点    分享发现
8 条回复
skydiver
2012-09-02 14:50:03 +08:00
360只是学的微软而已。微软也通过IE和必应工具栏抓取用户浏览数据 http://www.williamlong.info/archives/2513.html
Mac
2012-09-02 16:00:06 +08:00
@skydiver 两码事,用客户端反馈客户浏览的URL,然后再用蜘蛛抓这个擦边球可以有。但LZ的第二个例子,这不是擦边球的问题了,这完全是用客户端上传网页数据,客户端就是蜘蛛了,这问题就大发了,所有的加密访问都成了摆设了。
jay_chiu
2012-09-02 16:07:02 +08:00
@Mac 没看明白怎么不一样了。应改是一样的,不是客户端上传网页数据,也只是反馈URL,让蜘蛛来抓取。
============
百度联盟的广告是不是很精确,你看过什么页面,他就会有什么广告显示,这是什么原理?
skydiver
2012-09-02 16:07:30 +08:00
@Mac 刚才没注意第二个例子。不过看了一下,第二个例子还没有得到证实,截图也没有,不清楚抓取的方式。。。等360的回应吧
CoX
2012-09-02 16:20:04 +08:00
第二个微博已经删除了,这是啥情况?
Mac
2012-09-02 16:24:12 +08:00
有意思了,第二条删了,这个就有点那啥了,360的人还回复过这条微博,证实情况存在,在查原因。
crabhit
2012-09-03 10:07:02 +08:00
@jay_chiu 可能会track你在百度联盟网站的访问记录 挖掘你的兴趣 比如你逛化妆品网站 又逛女装网站 可能会判定你的性别为女性 年龄大概多少 然后给你推荐避孕药广告 这个大部分广告联盟都会这么干的
qiuai
2012-09-03 10:54:11 +08:00
接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

没看到这条...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/46717

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX