博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。
删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。
百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。
最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。
但是,但是,但是。
最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。
甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。
无奈,只能通过 Google Spam Report
举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。
如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。
101
1981 2019-06-30 08:35:24 +08:00
想打赏,但是图片不显示....
|
102
1981 2019-06-30 08:37:43 +08:00
另外评论模块我
Google Chrome 已是最新版本 版本 75.0.3770.100 (正式版本) ( 64 位) 点击无效,,头大 |
103
gzdaijie OP @1981 #102 我的浏览器也是 75.0.3770.100 (正式版本)( 64 位),估计是网络问题,有东西没加载完,你可以微信扫一扫,在微信里试一试?微信里能评论,长按二维码能打赏。兼容性的问题,当时考虑了 IE11, Chrome,Safari 和 Firefox。
|
104
gzdaijie OP @GTim #99 哈哈,我原来也不写心得,现在也开始写感悟了,博客折腾记。有时觉得比技术文章更有价值,总结后自己也学到了不少。
|
105
mfu 2019-06-30 09:05:29 +08:00
被采说明干货多质量高啊,挺不错的。像我的博客,全是湿货水货,每天访问量:0。:(
|
106
RadishWind 2019-06-30 09:59:20 +08:00
我一般在 github 的 issue 里面写 blog 还不错 没人爬 就自己和 g 友看
|
107
gzdaijie OP @RadishWind #106 其实满建议用 github 的 pages 的,issue 搜索不够友好,然后展示也受限。随便找个 静态框架,markdown 扔进去,一把生成了往主干一推了事~
|
108
gzdaijie OP @mfu #105 我觉得你的博客也蛮有意思的~ 我觉得只要是原创的,肯定能吸引兴趣相似的人来看,至少真实呀,背后是一个真实在思考问题,在做总结的人。
|
109
1981 2019-06-30 11:23:40 +08:00
@gzdaijie ae01.alicdn.com/kf/HTB1d.7leCSD3KVjSZFK76210VXaG.png
f*q 出去了还是不行,可以试试把图片托管到第三方,,GitHub 我这里 10kb 的加载速度 着实让人着急 |
110
storypanda 2019-06-30 11:33:24 +08:00 via Android
这么看幸好我的博客很乱,生活日记、设计分享、技术笔记等,我都不关心是否有人转载..
|
111
JamesMackerel 2019-06-30 13:36:38 +08:00 via iPhone
照这个思路,是不是也可以举报一把那些机翻 stackoverflow 的网站。
|
112
BFDZ 2019-06-30 13:59:54 +08:00
如果你博客在国外的话,可以时不时写些违禁内容,盗版、擦边色情、非法信息,他们采集了然后就去工信部举报
|
114
RiESA 2019-06-30 15:25:12 +08:00
这边负责的网站也时常被这种聚合网站爬,而且爬过去的内容各种水印乱加,这倒是其次,我心疼 https 请求数钱
|
115
t2win 2019-06-30 16:02:10 +08:00
支持原创!
大神们加油! 有您们付出世界才会文明起来😉 那怕一丁点~ 但一人一丁点就是大海了 祈祷 DDT 的出现🛐 |
116
exceloo 2019-06-30 16:35:45 +08:00
都是干货啊, 楼主不考虑搞个公众号嘛
|
117
liuzhiyong 2019-06-30 17:07:52 +08:00 via Android
@BFDZ 这个办法不错,哈哈。
|
118
LZSZ 2019-06-30 17:23:53 +08:00
@gzdaijie 快版权维权服务你了解一下看看,我今天浏览网页的时候发现别人文章最后有这么一段话:“本文章作者已签约快版权维权服务,转载请经过授权,侵权必究。”。
|
119
jorneyr 2019-06-30 17:28:08 +08:00 1
有点矫情了,总共才 14 篇文章呢,不过大家现在知道你的博客了,推广效果不错。
|
120
rudyyuan 2019-06-30 17:53:05 +08:00 via Android
怕被爬,还在各种网站上留自己的博客鸭,这是…
|
122
gzdaijie OP @jorneyr #119 我说了,我写了两年了,之前被爬走几十篇全删了,这个月又才写了几篇。大家探讨,可以少走弯路。比如反爬,水印,sitemap,spam report,全文爬的头条平台,等等。两年前知道这些,也不至于现在才从头开始摸索。我分享了我的经历,大家能够从中看到自己能用上的方法,目的就达到了。
|
123
gzdaijie OP @rudyyuan #120 觉得爬不好针对的是采集的人,留自己的博客是给觉得文章有用的人看,我觉得没什么矛盾的。
谴责、沟通、举报,我没有说半个怕字,我说的是我维权的经历和效果,大家觉得对自己建站有用,那就可以用。而且大部分评论都分享了很多自己的方法。这个帖子收藏量是评论量的 5 倍左右,大部分博主是有共鸣的。 |
124
gzdaijie OP @RiESA #114 哈哈,心疼请求数钱,估计你的图片和视频比较多,我的基本是文字,对象存储,一个月还花不了几个 G。
|
125
gzdaijie OP @JamesMackerel #111 允许翻译的内容,怎么翻译都是不侵权的。主要是机翻的内容,还被各种采集,就蛋疼了。真正好好翻译的内容,估计就沉了。机翻数量大,也成体系。
|
127
gzdaijie OP @LZSZ #118 我注册了,杭州的一家公司提供的服务,不过用不用再考察下,因为被爬对利益倒是没啥损失,主要是心累。推荐给全职写文的童鞋试一试~
|
128
gzdaijie OP @skiy #121 你说的应该是 sitemap 吧,我现在发了后,第一时间到 Google Search Console 刷新,有一次十分钟就被爬了,冒了点冷汗。
|
129
gzdaijie OP @1981 #109,谢谢你的建议,刚刚花时间优化了这一部分,二维码不放图片了,传入链接动态生成。这样一个页面又少了 40Kb 的大小。Git 评论 js 插件,放到七牛云上去了,原来 unpkg 确实慢了点,不过评论调用 Github 的接口,这个速度不太可控,偶尔快,偶尔慢的,自己电脑也是。
|
130
JamesMackerel 2019-06-30 20:08:29 +08:00
@gzdaijie 主要是这些网站机翻的质量实在太差,我还不如读英语,而且最蠢的是他机翻之后还不给原文的链接。我感觉非常的难受。
|
131
zkqiang 2019-06-30 22:57:56 +08:00
他们这些聚合网站都是一些通用爬虫,你多做一些反爬和 Ajax 就可以恶心死他们
|
132
ggicci 2019-07-01 01:40:19 +08:00
robots.txt 管用不。。。
|
134
HangoX 2019-07-01 09:43:23 +08:00
我现在搜索都是加上-csdn 的,不然东西没法看
|
135
ylsc633 2019-07-01 09:46:30 +08:00
可以用 js 渲染的前端页面!
这样 不过 国内搜索引擎可能收录不到! 不过不影响谷歌等收录! |
136
myhot21 2019-07-01 09:51:49 +08:00
网上有原创内容版权交易平台,找一下他们,看下能不能帮忙维权。
|
138
gzdaijie OP @ylsc633 #135 嗯,这个暂时是谷歌的私有协议,还没被广泛使用,估计也没有直接渲染的效果好。不然大家也不用想尽办法,做 Server Sider Render 了。React/Vue 这些框架对 SSR 都支持得挺好的。
|
140
gzdaijie OP @HangoX #134 我最近发现 bing 也是提交后,也是即时收录的。不过 bing 的份额太小了,估计注册的站长也少。CSDN 实在是没法看了。权重再高,给个五条显示不就好了,非要占据 10 页 10 页 10 页。
|
141
gzdaijie OP @myhot21 #136 写博客不指望有啥收益,目前主要是心累,站点之前被谷歌认定为抄袭站了。所以只要保证我的搜索结果在前面,就 OK 了。不过以后写得多了,可以考虑下版权平台,毕竟没有那么多精力天天举报。
|
142
tt67wq 2019-07-01 10:11:22 +08:00
我的垃圾博客都没人爬
|
143
kokdemo 2019-07-01 11:19:20 +08:00
申请加你友链了
|
144
Youngxj 2019-07-01 11:34:13 +08:00
我的辣鸡博客被某些教学网盗版的干干净净的
|
145
ylsc633 2019-07-01 11:44:08 +08:00
我有突然想到一条, 可以试试 针对爬虫,走正常渲染页面! 如果普通用户进来, 加个密码访问,密码就放在页面!
除非这些乱爬的网站是人工的,不然我感觉应该没有这么智能吧! 虽然有点复杂! 这样别人一样能搜索到,就是访问的时候 需要填个密码而已! |
147
gzdaijie OP @tt67wq #142 你写的文章也蛮多的,github issue 的方式天生反爬虫了。整理成一篇文章,多蛋疼。
|
150
gzdaijie OP @ylsc633 #145,这个自损 800 了,这个月迁移到静态博客+对象存储了,原来折腾服务器,维护起来太累,所以后端能做的比较少。
|
153
ahaxzh 2019-07-01 23:38:11 +08:00
好奇的问一下:
1,可否像 BBS 一样加一些隐藏字符呢?就是背景色文字,很多论坛都有这种处理,感觉乱码占了大概 20% - 40% 2,配图,是否可以设定好不能外链只能本站使用呢? 以上,突然冒出来的想法,但是我觉得可能都有点洁癖,有这些设置(包括我看到你图片伤的 logo )实在会让自己有点不舒服。 |
154
gzdaijie OP @ahaxzh #153 是这样的,加隐藏字符和背景色文字无效的,因为爬取的是 html 内容,样式是可以设定的。如果内容直接乱码的话,技术文章,估计就没法看了。不太好联想。第二个问题,爬虫爬取,连图片都爬的,上载到他自己的服务器了,链接不会指向原站的。
图片加可见 logo,是最后能看到我域名的地方了。可能我的 logo 位置不太统一,颜色上也比较突兀,下次我会注意一点,尽量风格统一,不影响视觉。 非常感谢你的提醒了~ |
155
wednesdayco 2019-07-02 11:20:32 +08:00
字体映射了解一下,不用全部映射,只需要做个别字符的映射即可,这样它爬到到东西就是:“王八坨子前端工程师”。实际显示文字:“我是一名前端工程师”
|
156
pflhm2005 2019-07-02 11:39:18 +08:00
我的垃圾博客都有人爬,csdn 的杂种。。。
|