独立博客被各种聚合网站爬,好心累。

2019-06-29 12:23:19 +08:00
 gzdaijie

博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

但是,但是,但是。

最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

https://geektutu.com

18791 次点击
所在节点    程序员
156 条回复
NG6
2019-06-29 15:27:41 +08:00
楼主博客专业性很强,我自己的博客每天也就 400 多访问量,不过搜索引擎索引了不少,经常还是能搜到我自己的文章,哈哈,转载啥的到也无所谓,都是一些笔记之类的,实用性较强,被转载了也能帮助别人,本来也没广告
https://sleele.com
77alex
2019-06-29 15:29:33 +08:00
我觉得 @Buges #26 楼的方法非常好,被转载之后第一时间你编辑自己的原帖,然后去把对方网站举报了。这种直接封站 1 个月起步。尤其针对那种 10 分钟就偷你文章的网站
gzdaijie
2019-06-29 15:37:52 +08:00
@NG6 你的文章数量和质量都不错,肯定花了不少时间。写文章很耗精力,当然是希望帮助别人的~ 但是希望搜索引擎认为自己的原创的,这是底线。收录了几天后再转,也没啥问题,我原来的声明也是鼓励转载的,伤心了。

大家也可以发一发自己的原创博客链接,独立博主是个小圈子,一起交流交流~
skenan
2019-06-29 15:42:00 +08:00
增加一些 google markup
nicevar
2019-06-29 15:45:58 +08:00
写的太认真了, 写随意点, 每写几篇中间用程序生成几十篇, 爬虫都吐血
darmau
2019-06-29 15:47:57 +08:00
我们都没人来爬。。。

medium 的权重很高,我一般在 medium 再发一篇,再链到博客
gzdaijie
2019-06-29 15:57:24 +08:00
@skenan 感谢,这个有时间给加上。
weakish
2019-06-29 16:05:58 +08:00
可以学习一下萨达姆,据说萨达姆从来不说「我」,总是说「萨达姆」。

例如,「我之前尝试过把某某元参数设为 X 」替换成「极客兔兔之前尝试过把某某元参数设为 X 」,
「这篇文章将介绍 Y 」替换成「和极客兔兔一起了解下 Y 吧」,
「有兴趣深入的读者可以参见张三在某顶会上的工作」替换成「这个概念是极客兔兔读了张三在某顶会上的工作后掌握的,有兴趣深入的读者也可以去瞄一眼」

我以前见过有几个人的文章全是这个风格,但是只觉得比较别致。今天看到这篇帖子才想到,也许他们是为了反盗版。
gzdaijie
2019-06-29 16:15:49 +08:00
@weakish 你居然发了语音,我跟着读了一遍。你的 pages 主页别具一格~
halfer53
2019-06-29 16:16:17 +08:00
google 不会惩罚重复内容,google 会把相同的内容聚合在一起,当返回结果的时候,选择其中的一个返回
gzdaijie
2019-06-29 16:21:42 +08:00
@halfer53 #50 这点没了解过,一开始搜相关关键字,都是转载的网站,但是用 site:查看的确是收录了,但是举报后,效果确实很明显。连续几天我的文章就能出现在搜索首页了,刚刚搜索也是......
vsitebon
2019-06-29 16:23:13 +08:00
@gzdaijie bonxg.com 就一直都说学习的东西,基本每篇都是思考后的内容。
lirui0073
2019-06-29 16:25:17 +08:00
第一时间报告给 google 让 google 过来索引啊 几次后就排名第一了
Raynard
2019-06-29 16:27:01 +08:00
聚合站站长司马!
LongLights
2019-06-29 16:28:24 +08:00
纯干货。。。采集完都不需要二次编辑的,唉 心疼楼主我。我的网站也差不多,写文艺作品评论的,好多被百家号之类的辣鸡平台花式采集,排名还都比我高
gzdaijie
2019-06-29 16:31:22 +08:00
@vsitebon 配色好漂亮呀,突然感觉我设计的土得掉渣了,注重功能,没注重色调了。
gzdaijie
2019-06-29 16:32:30 +08:00
@LongLights #55 作为一个搜索引擎,搞百家号这种专注于抄袭的内部引流,格局之小,令人咂舌。
gzdaijie
2019-06-29 16:34:40 +08:00
@lirui0073 感谢,我现在新文章推上去,马上在 google 上手工更新 sitemap.xml ,5 分钟后发现收录了,安心睡觉。之后发现采集再举报,效果明显。过去荒废了一年,不懂这些。
ElegantOfKing
2019-06-29 16:34:47 +08:00
没想到以这种方式又看到楼主的博客!我前几个月帮人写毕设,就是参考了楼主的 Mnist 相关文章,还在 Github 上 star 了相关的项目。真心感谢,写的真不错!
westoy
2019-06-29 16:35:57 +08:00
聚合一般都是爬 feed 的, 改成输出部分再加个查看全文的连接

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX