独立博客被各种聚合网站爬,好心累。

2019-06-29 12:23:19 +08:00
 gzdaijie

博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

但是,但是,但是。

最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

https://geektutu.com

18725 次点击
所在节点    程序员
156 条回复
lunatic5
2019-06-29 13:04:15 +08:00
干货太多,所以采集的人多。。。像我们这里小博客,搜索引擎的爬虫都不想来
loading
2019-06-29 13:06:01 +08:00
技术博客不能写成技术 wiki,要加点自己生活的东西在里面,这样爬虫也要费神。
楼主你这种,闭眼爬就行了。。。
jdhao
2019-06-29 13:09:07 +08:00
试试英语写博客?我的博客搜索相关关键词,还是比较靠前的
gzdaijie
2019-06-29 13:11:12 +08:00
@loading 嗯,写自己生活的东西也是最近几周想到的,最近把自己的心路历程总结了几篇。

爬虫爬的时候估计是按关键字的,特别是标题关键字契合就行。码农的关键字就那么几个,里面塞点个人情感,也不影响爬。我最新的 2 篇文章图片全加了水印,一样肆无忌惮地采集。
starrycat
2019-06-29 13:12:01 +08:00
大佬才会有的烦恼😂。我博客文章只在博客发,很少有采集,只有一般博客的转载引用。
gzdaijie
2019-06-29 13:13:57 +08:00
@lunatic5 因为最近写的东西还没人写,框架都还没发布,参考了各种文档,一行一行码出来的,每一篇都花了好多时间,所以被这样瞬间采集挺难过的。
loading
2019-06-29 13:15:09 +08:00
@gzdaijie 写点自己东西是为了让看到垃圾站的人知道,他正在看的文章并不是那个站点原创的。
qf19910623
2019-06-29 13:15:53 +08:00
我那个小破站人家都不想爬。。。
gzdaijie
2019-06-29 13:16:14 +08:00
@jdhao 嗯,这个问题思考了很久了。想用另一个站做英文博客。受众大一些,谷歌也会更友好一点。不过精力真是个大问题,难得逼自己,写几篇文章。中间有过一年,一篇都没写过。原来的 20+篇也是集中写完的。
gzdaijie
2019-06-29 13:19:16 +08:00
@loading 我做了几点尝试,一是图片加水印,二是每个代码片段,最开始注释加域名。

不过很感谢你的这个思路,我会尝试的。中间夹杂几句,更容易被读到,而且文章也有点情感,立体一点。不然总觉得自己写的东西干巴巴的。
gzdaijie
2019-06-29 13:21:07 +08:00
@starrycat 原来每天也就 20-30 流量,也没人采,最近写了几篇比较新颖的,然后就被盯上了。
loading
2019-06-29 13:21:58 +08:00
@gzdaijie 加域名没用的,爬虫匹配后清掉就行了。要冷不丁地加东西,你都加是很容易别过滤的。
loading
2019-06-29 13:22:28 +08:00
甚至你可以尝试加 xss 脚本。
gzdaijie
2019-06-29 13:25:39 +08:00
@qf19910623 我原来也没人爬,只是怪自己手贱非要主动分享链接到掘金这些地方去,被全文爬了。而且是刚发就分享,至少等收录几天后再干这种事,被谷歌认定抄袭心有不甘。

我的也是个小破站,没几篇文章。不知道最近几篇怎么被看上的。
NikoLan
2019-06-29 13:27:39 +08:00
所以,有木有防止爬虫的前端框架(换个角度思考问题
就算有,SEO 也有问题,伪命题
sisylocke
2019-06-29 13:28:35 +08:00
歪个楼,大佬能加个 RSS 源吗(*´∇`*)
terence4444
2019-06-29 13:30:35 +08:00
是否可以像视觉中国那样起诉索赔?
mogp
2019-06-29 13:33:28 +08:00
昨天刚从贵站下载 Pandas 数据处理(三) - Cheat Sheet 中文版
whwq2012
2019-06-29 13:38:56 +08:00
话我就放这里了,垃圾聚合站站长司马。

前两天室友要我帮忙查询他亲戚的高考分数够不够某个学校的录取线,于是我就去查了去年的一分一档表,搜索后发现只有聚合站才有符合条件的关键字,其他网站都没有,于是我没有细看就信了,但是万万没想到,网页的 title 和正文标题都是 2018 年一分一档,但是实际上图里是 2017 的,只有一行小字在旁边标注。而实际是该省去年并未发布一分一档表,但是这司马聚合站还用这个当标题误导人。
幸好算出来的分数最多也就七八分的误差,要是再多差一点,那个人可能就可能从第一志愿滑档了。

更别说平时查资料时,聚合站污染视线,比广告站还过分


我再重复几遍
聚合站站长司马!
聚合站站长司马!
聚合站站长司马!

就是这个网站 http://www.aiyangedu.com
brust
2019-06-29 13:43:59 +08:00
@whwq2012 #19
这些网站确实恶心

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX