独立博客被各种聚合网站爬，好心累。

2019-06-29 12:23:19 +08:00

gzdaijie

博客没权重，本来都放弃治疗了，今年 6 月份一个同事提起我原来的博客，心有不甘，又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章，因为已经被 CSDN 等各种网站转载得面目全非了，谷歌搜索在一万页以后了。原来没经验，第一时间将网址分享到头条、掘金，segmentfault 等地方，完全没想到，这些网站都是全文爬取的。这些站推到首页后，更多的站也转了，然后，权重拼不过，反而是我被认定为抄袭了。

百度就不说了，前 10 页，不是 CSDN 就是 cnblogs，小站基本不收录，也没索引。

最近又写几篇，想安安静静地把两年前没写完的主题继续完成，也不往外分享链接了。10 篇文章左右，声明了禁止转载，平均每天 2、3 百流量，有一天到了 800，算是有点安慰，还有人看。

但是，但是，但是。

最近 2 周疯狂被各种聚合站爬，包括码农网、数据之路，闪念基因，等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟就爬走了！！！而且指向我站点的链接全删，谷歌搜索关键字，聚合站居然还排在第一页第一个，心好累。有几个网站还算有点良心，联系了后删了文。也有不理我的，还有不留联系方式的。

无奈，只能通过 Google Spam Report 举报这种无良转载，连续举报了一周，关键字搜索，有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的，真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果，搜索流量、阅读量等上来了，到时候写一篇 “维权之路” 吧。先立一个 flag，估计撑不到那个时候，就心累得永远放弃了。

https://geektutu.com

20180 次点击

所在节点

156 条回复

twoconk

2019-06-29 13:46:17 +08:00

刚好在看 TensorFlow 的东西的，楼主的博客写的很细致，好好看看！

gzdaijie

2019-06-29 14:12:11 +08:00

@twoconk 之前自己找资料的时候，代码动辄几百上千行，太冗长。TF2.0 还没正式发布，目前是 beta 版，觉得还不错，就直接用 2.0 开始写了，每个 demo 都保持在 50-100 行左右。谢谢你的认可~

skiy

2019-06-29 14:13:19 +08:00

内容里面加本文 url

gzdaijie

2019-06-29 14:14:43 +08:00

@mogp 哈哈，女票金融行业的，会经常用 pandas 处理 excel，又不喜欢看英文版，特意给她做的版本，顺便就传到自己博客了。这个系列三篇是根据她问的问题写的，不知道算不算是狗粮，先逃了。

gzdaijie

2019-06-29 14:18:20 +08:00

@sisylocke 感谢认可！！！加上 RSS 后再来回复你。之前博客是 React+Koa 从头到尾自己写的，后来懒得维护了，就用了静态框架 hexo 花了 2 天按照自己原来博客的样式，一模一样地撸了这个主题，功能还很弱。

Buges

2019-06-29 14:20:59 +08:00

写点不太和谐的东西，他们就不敢采集了。

gzdaijie

2019-06-29 14:21:58 +08:00

@NikoLan 是的，SEO 是个大问题。对于动态生成的页面，谷歌好像也可以提供 json 格式的描述支持收录，忘记了。但是总觉得不是主流不靠谱。内容只能先渲染出来。

gzdaijie

2019-06-29 14:25:45 +08:00

@whwq2012 中文站是无解的，百度偏好这类站，广告流量稳定，关键字可以卖，垃圾网页也无处举报。

小站百度半年估计也不愿看一眼，我的有篇文章，按关键字 google 排第一条，但是百度宁愿显示些毫不相关的内容，也不愿意收录显示小站的。

easylee

2019-06-29 14:28:35 +08:00

站点加载速度特么是真的快！

💪

gzdaijie

2019-06-29 14:31:43 +08:00

@terence4444 这些聚合站采集文章，估计知道大家不会这样做的。

不过，大家如果发现自己的网站被爬了，搜索结果还排在前面，Google Spam Report 真心推荐。效率很高，一般两小时后，再去搜索，垃圾站的索引就没了。前提是，你第一时间向 Google 提交了网址。

真心得总结一篇，让大家都少走点弯路。

gzdaijie

2019-06-29 14:35:47 +08:00

@skiy 嗯，我在代码片段里加了，图片也加了。不过令我最烦恼的，是 Google 搜索把我判定为抄袭，然后搜索结果显示聚合站，而不显示我的。比如对方十分钟就爬走了，然后第一时间提交 Google，并被收录。跳进黄河也洗不清。

gzdaijie

2019-06-29 14:39:06 +08:00

@easylee 自己撸的 hexo 主题，持续优化中~

如果对 hexo 主题感兴趣，也欢迎关注我的主题，两周前花两天时间撸的。

https://github.com/geektutu/hexo-theme-geektutu

gzdaijie

2019-06-29 14:41:43 +08:00

@Buges 哈哈，我觉得生活对我不薄，还想多活几年。

youngxu

2019-06-29 14:42:52 +08:00

用 github pagse 啊，看他们怎么爬

gzdaijie

2019-06-29 14:47:18 +08:00

@youngxu pages 是 robots 协议不允许百度爬，对普通的爬虫也有反爬措施吗？还有一点，就是觉得 pages 访问太慢了，今年发现快很多了，上海联通，github 晚上卡得不行。

weixiangzhe

2019-06-29 15:00:31 +08:00

我觉得还挺好我在我的所有文章里都有写原文地址的

cifermail

2019-06-29 15:04:06 +08:00

LZ 看起来对爬虫有经验？可以写个比较全面的反爬虫博客？比如外部的“举报、Google Spam Report、曝光、维权”，文章本身的“链接、remark、代码 js/css/内容混淆”，服务器的”反爬虫“，一条龙服务。

gzdaijie

2019-06-29 15:06:14 +08:00

@weixiangzhe 正常转载问题不大的，主要是采集站爬得太快了，搜索引擎难以分别原创。不过即使是正常转载，Google 也会给转载站降权重的，对自己不利。其实自己写一段推荐摘要，不放原文会比较好。

gzdaijie

2019-06-29 15:11:47 +08:00

@cifermail 爬虫琢磨过一段时间，静态博客，服务器端能做的有限。不过计划下一篇博客折腾记，专门记录这两周的心路历程和反爬措施，让看到的独立博主多点方式维护自己的利益。目前还要再总结点干货。

fengtons

2019-06-29 15:23:52 +08:00

厉害，收藏了

第 2 页／共 8 页

上一页下一页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578515

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX