与其用网上来路不明不靠谱的数据,不如自己造个轮子搞定它。
周末时间做了一个采集卫健委疫情数据的小项目,据我所知是 GitHub 上唯一一个数据较全(包含了港澳台地区数据及一些官方通报中的数据)、目前还在积极维护的中国地区 covid-19 数据的项目。
https://github.com/LeslieLeung/covid-19-cn-nhc
1
icemaple 2022-02-14 09:38:10 +08:00
这种信息采集统计感觉有点刑
|
2
LeslieLeung OP @icemaple #1 都是公开的数据应该没关系吧?而且采集的速率跟正常访问没有太大区别,不会对服务器造成很大的压力。
|
3
icemaple 2022-02-14 14:07:08 +08:00
@LeslieLeung 《互联网新闻信息服务管理规定》第五条 通过互联网站、应用程序、论坛、博客、微博客、公众账号、即时通信工具、网络直播等形式向社会公众提供互联网新闻信息服务,应当取得互联网新闻信息服务许可,禁止未经许可或超越许可范围开展互联网新闻信息服务活动。
|
4
gengchun 2022-02-14 14:48:36 +08:00
前两天刚看了社会新闻。一个爬虫写得太差,采住房信息把住建委网站,不小心把网站爬死的,乙方通过报警来敷衍甲方的。结果,写爬虫两人直接进去的。
|
5
gengchun 2022-02-14 14:50:28 +08:00
另外卫健委的这个数据,阿里或者其它第三方都是有提供的。
阿里这种还是可以相信一下的。这种风险一定要记住让大厂承担哈。 |
6
LeslieLeung OP |
7
gengchun 2022-02-14 15:08:54 +08:00
@LeslieLeung 我说的是你把这个开源出来。这个和你下载数据的用途没有关系。国内司法操作上,对爬虫的处理基本上和计算机病毒差不多了。你想想计算机病毒的作者刑不刑?这种事完全看对方人品哈。
有些能力自己知道就好了。不要拿出来。 |
8
LeslieLeung OP @gengchun #7 明白了 感谢老哥提醒
|
9
HiCoder 2022-02-15 11:32:11 +08:00
big brother is watching u
|
10
warcraft1236 2022-02-16 16:26:01 +08:00
@HiCoder 哈哈哈
|