独立博客被各种聚合网站爬,好心累。

2019-06-29 12:23:19 +08:00
 gzdaijie

博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

但是,但是,但是。

最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

https://geektutu.com

18754 次点击
所在节点    程序员
156 条回复
twoconk
2019-06-29 13:46:17 +08:00
刚好在看 TensorFlow 的东西的,楼主的博客写的很细致,好好看看!
gzdaijie
2019-06-29 14:12:11 +08:00
@twoconk 之前自己找资料的时候,代码动辄几百上千行,太冗长。TF2.0 还没正式发布,目前是 beta 版,觉得还不错,就直接用 2.0 开始写了,每个 demo 都保持在 50-100 行左右。谢谢你的认可~
skiy
2019-06-29 14:13:19 +08:00
内容里面加本文 url
gzdaijie
2019-06-29 14:14:43 +08:00
@mogp 哈哈,女票金融行业的,会经常用 pandas 处理 excel,又不喜欢看英文版,特意给她做的版本,顺便就传到自己博客了。这个系列三篇是根据她问的问题写的,不知道算不算是狗粮,先逃了。
gzdaijie
2019-06-29 14:18:20 +08:00
@sisylocke 感谢认可!!!加上 RSS 后再来回复你。之前博客是 React+Koa 从头到尾自己写的,后来懒得维护了,就用了静态框架 hexo 花了 2 天按照自己原来博客的样式,一模一样地撸了这个主题,功能还很弱。
Buges
2019-06-29 14:20:59 +08:00
写点不太和谐的东西,他们就不敢采集了。
gzdaijie
2019-06-29 14:21:58 +08:00
@NikoLan 是的,SEO 是个大问题。对于动态生成的页面,谷歌好像也可以提供 json 格式的描述支持收录,忘记了。但是总觉得不是主流不靠谱。内容只能先渲染出来。
gzdaijie
2019-06-29 14:25:45 +08:00
@whwq2012 中文站是无解的,百度偏好这类站,广告流量稳定,关键字可以卖,垃圾网页也无处举报。

小站百度半年估计也不愿看一眼,我的有篇文章,按关键字 google 排第一条,但是百度宁愿显示些毫不相关的内容,也不愿意收录显示小站的。
easylee
2019-06-29 14:28:35 +08:00
站点加载速度特么是真的快!

💪
gzdaijie
2019-06-29 14:31:43 +08:00
@terence4444 这些聚合站采集文章,估计知道大家不会这样做的。

不过,大家如果发现自己的网站被爬了,搜索结果还排在前面,Google Spam Report 真心推荐。效率很高,一般两小时后,再去搜索,垃圾站的索引就没了。前提是,你第一时间向 Google 提交了网址。

真心得总结一篇,让大家都少走点弯路。
gzdaijie
2019-06-29 14:35:47 +08:00
@skiy 嗯,我在代码片段里加了,图片也加了。不过令我最烦恼的,是 Google 搜索把我判定为抄袭,然后搜索结果显示聚合站,而不显示我的。比如对方十分钟就爬走了,然后第一时间提交 Google,并被收录。跳进黄河也洗不清。
gzdaijie
2019-06-29 14:39:06 +08:00
@easylee 自己撸的 hexo 主题,持续优化中~

如果对 hexo 主题感兴趣,也欢迎关注我的主题,两周前花两天时间撸的。

https://github.com/geektutu/hexo-theme-geektutu
gzdaijie
2019-06-29 14:41:43 +08:00
@Buges 哈哈,我觉得生活对我不薄,还想多活几年。
youngxu
2019-06-29 14:42:52 +08:00
用 github pagse 啊,看他们怎么爬
gzdaijie
2019-06-29 14:47:18 +08:00
@youngxu pages 是 robots 协议不允许百度爬,对普通的爬虫也有反爬措施吗?还有一点,就是觉得 pages 访问太慢了,今年发现快很多了,上海联通,github 晚上卡得不行。
weixiangzhe
2019-06-29 15:00:31 +08:00
我觉得还挺好 我在我的所有文章里都有写原文地址的
cifermail
2019-06-29 15:04:06 +08:00
LZ 看起来对爬虫有经验?可以写个比较全面的反爬虫博客?比如外部的“举报、Google Spam Report、曝光、维权”,文章本身的“链接、remark、代码 js/css/内容混淆”,服务器的”反爬虫“,一条龙服务。
gzdaijie
2019-06-29 15:06:14 +08:00
@weixiangzhe 正常转载问题不大的,主要是采集站爬得太快了,搜索引擎难以分别原创。不过即使是正常转载,Google 也会给转载站降权重的,对自己不利。其实自己写一段推荐摘要,不放原文会比较好。
gzdaijie
2019-06-29 15:11:47 +08:00
@cifermail 爬虫琢磨过一段时间,静态博客,服务器端能做的有限。不过计划下一篇博客折腾记,专门记录这两周的心路历程和反爬措施,让看到的独立博主多点方式维护自己的利益。目前还要再总结点干货。
fengtons
2019-06-29 15:23:52 +08:00
厉害,收藏了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX