独立博客被各种聚合网站爬,好心累。

2019-06-29 12:23:19 +08:00
 gzdaijie

博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

但是,但是,但是。

最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

https://geektutu.com

20187 次点击
所在节点    程序员
156 条回复
vsitebon
2019-06-29 16:37:11 +08:00
@gzdaijie colorhunt.co 你可以从里面找配色
siyushin
2019-06-29 16:39:52 +08:00
自从有人宣称他发明了免费这种商业模式后,生态就必然会变成这样了……
Dslayer
2019-06-29 16:40:13 +08:00
@weakish 第三人称己称, 萌点。
据说史达林也这样,可能是塑造形象所需。
iyaozhen
2019-06-29 16:40:33 +08:00
正常(全文)转载,留原文链接我也能接受。

但完全的那种聚合站,原文链接还是另一个聚合站的,还嵌套了,这是最骚的。
gzdaijie
2019-06-29 16:45:26 +08:00
@ElegantOfKing #59 当时在打比赛,然后用 mnist 总结了一些与众不同的地方写了下来,对你有帮助,感觉很开心!现在有更新的内容了~
littleghosty
2019-06-29 16:48:32 +08:00
cnblog 自己都被爬
gzdaijie
2019-06-29 16:51:42 +08:00
@littleghosty #66 爬 cnblogs 就太傻了,除非是做推荐用,比如 tuicool,cnblogs 的权重太高了。爬百度不管的原创博主,是收益最大的。
gzdaijie
2019-06-29 17:02:48 +08:00
@westoy #60 也有可能爬 sitemap,比对是否有新链接再过滤。估计维护了一个域名列表,定期去看是否有新链接。我被爬取后的文章不是 feed 里的原文,而是从 article 标签内部,过滤掉 a、script、canvas 等标签的结果。
weicools
2019-06-29 17:04:17 +08:00
我的搜索都是用油猴脚本屏蔽了 csdn,抄太多,质量差,阅读体验极差!!!
haozi3156666
2019-06-29 17:14:11 +08:00
文末插入一个转载自当前页面的链接,就算爬过去也会有个链接指向你的博客,给你加点权重。
gzdaijie
2019-06-29 17:20:58 +08:00
@haozi3156666 #70 我分析了大部分转载的网站,结果很失望。

1. 将指向原站的链接全部干掉。
2. 将原站链接的 a 标签,加上 nofollow, noindex 属性,搜索引擎会过滤掉有这个属性的标签。
3. 将原站的链接全转为跳转,比如 https://la_ji_zhan 点 com/go?href=你的链接,由垃圾站的服务器提供 302 重定向。
4. 把你原站的链接,全爬过来,都改为指向自己的。

最终连外链都舍不得施舍。
haozi3156666
2019-06-29 17:40:20 +08:00
@gzdaijie 这么凶残,那别用 a 标签了,直接把链接用文本形式写出来,做一些引导文案,让看的用户主动到源站去看。比如:更多精彩请订阅 xxx,关注 xxx 公号,反正就是引导到你自己的地盘上去。
ziseyinzi
2019-06-29 17:52:31 +08:00
@阿里云云栖社区
weixiangzhe
2019-06-29 17:58:44 +08:00
尾部链接都不行 这也太恶心人了
kwoktung
2019-06-29 17:58:49 +08:00
干货满满
xratzh
2019-06-29 18:06:54 +08:00
我一般加上自己的文章地址在文章里,顺便也被爬了,然后有人会回我的博客看
JCZ2MkKb5S8ZX9pq
2019-06-29 18:13:09 +08:00
国家准备推侵权的惩罚性赔偿,不知道能不能搭上顺风车。
meetocean
2019-06-29 18:48:09 +08:00
博客折腾记(一) - 极致性能的尝试,写的很好。
gzdaijie
2019-06-29 19:03:45 +08:00
@meetocean #78 你是专业写作的,这个评价很开心!技术博客写作算是业余爱好,不喜欢被采集也只是一时气愤不过。看了你写书的帖子,才觉得,版权状况的好转对于全职投入的人至关重要,祝愿你实现梦想!
sbmzhcn
2019-06-29 19:04:00 +08:00
发生这种事是因为搜索引擎的质量及索引高质量内容的能力有所下降,如果搜索引擎能很好的区分内容的原始来源,就不会形成这种情况,聚合网站能快速获取流量,然后靠流量可以获得收入,目前 baidu google 对聚合内容都无法很好的处理,它们的排名往往非常好。但实际内容是没什么帮助的,前些年还不是这样,最近几年搜索引擎结果页质量越来越差,是 baidu google 本身的能力有限,还无法区分哪些是好的,哪些是不好的。

有一个可能的解决办法,及时把你的内容让 google baidu 收录,可以加入它们的站长管理员工具里,这种情况,必须做一些 seo,不然聚合内容排名会在你上面,比你还原创。
还有就是投诉相应的网站。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX