独立博客被各种聚合网站爬,好心累。

2019-06-29 12:23:19 +08:00
 gzdaijie

博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

但是,但是,但是。

最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

https://geektutu.com

20201 次点击
所在节点    程序员
156 条回复
hoyixi
2019-06-29 19:06:47 +08:00
简体中文个人站已亡,真要写技术类文章,还不如注册个公众号之类自媒体,说不定还能赚个饮料钱
ety001
2019-06-29 19:37:35 +08:00
这些聚合站终将会完蛋!
StarRED
2019-06-29 19:44:39 +08:00
在国内很正常啦,怀念以前都是免费的时代。什么都是免费的。
gzdaijie
2019-06-29 20:13:38 +08:00
@sbmzhcn #80 提交到百度=没有提交,一年来爬一次,爬的时候发现转载的早已被收录,降权重,改成两年爬一次。被收录的永远是转载的 CSDN,cnblogs 等少数几个平台,举报无用,恶性循环。
提交到谷歌=五分钟内收录,发现有人采集,可以举报,举报有用,还能搜到原创的东西。

所以现在专心在谷歌上优化了,百度彻底放弃了,提交了网址,几个月都不理一次的。
gzdaijie
2019-06-29 20:15:50 +08:00
@hoyixi #81 倒也不是为了赚钱,花费的精力也远远大于饮料钱,主要是做个总结,希望能帮到别人。但是不希望被无底线地爬取,最终原创的人被贴上抄袭的标签。
gzdaijie
2019-06-29 20:17:32 +08:00
@StarRED #83 写博客公开出来也是免费的,我觉得和免费不免费没有关系。只是希望原创者不要被误解为抄袭者罢了。
hoyixi
2019-06-29 20:27:12 +08:00
@gzdaijie #85
我也差不多是这个意思,与其便宜了聚合站。不如自己在封闭平台搭个窝。 不过做好备份就是了,平台有个弊端就是说删就删
gzdaijie
2019-06-29 20:30:21 +08:00
@hoyixi #87 非常感谢你的建议,目前还想在博客上做一些实验的,比如某些页面做些好玩的东西,公众号有点封闭了,再坚持坚持。
marcosteam
2019-06-29 20:31:30 +08:00
聚合站真的恶心,SEO 搞得搜索结果乌烟瘴气
jinyu121
2019-06-29 21:27:26 +08:00
记得有个东西,显示出来的是一套,复制出来的又是另一套。

叫 寒蝉
glouhao
2019-06-29 21:33:46 +08:00
以前有人采集我把链接带上了了,挺爽。
shijingshijing
2019-06-29 21:41:45 +08:00
都是头条系带的好头,大家看着头条系靠爬新闻做这么大了,都玩起了聚合分发这一套了,最终的结果就是中文内容质量越来越差,原创性的东西越来越少。
mon3
2019-06-29 21:55:58 +08:00
把 rss 关了,再做一下反爬,就 OK 了。
做聚合的要大量写爬虫规则的,遇到恶心的反爬会直接放弃的。
s4nd
2019-06-29 22:07:27 +08:00
在文章里用你自己的域名或者网站名字把几个敏感词分开,他们爬去过滤掉你的域名就出现了敏感词,各种敏感词一起上,看他们还敢不敢爬
qsbaq
2019-06-29 22:11:03 +08:00
楼主交换链接么?
gzdaijie
2019-06-29 22:48:57 +08:00
@qsbaq #95 交换友链的话,你可以到 https://geektutu.com/post/link.html 这里留言~
欢迎原创博主换链接。
Hypn0s
2019-06-29 23:54:31 +08:00
一个自损八百的方法就是用 canvas 画博客
sz007
2019-06-30 01:20:29 +08:00
可以试试这几个方法
1.文章结尾处加上原文链接,跟内容混合在一起,利于 PR
2.写完文章立即提交到 Google console、百度站长,利于辨别原创
3.定期有规律更新文章,利于吸引爬虫
yemoluo
2019-06-30 06:48:47 +08:00
1. 别只发技术文章,不要使用分类,更多应该用标签
2. 第一时间提交到 baidu / google
3. 生活文章有时候也提一提技术。

这样,有时候聚合站会被你气死,哈哈....
huhexian
2019-06-30 07:24:54 +08:00
哈哈我个人博客,写写日记随笔,基本没人采集

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/578515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX