covid-19 卫健委统计数据采集

2022-02-13 23:58:29 +08:00
 LeslieLeung

与其用网上来路不明不靠谱的数据,不如自己造个轮子搞定它。
周末时间做了一个采集卫健委疫情数据的小项目,据我所知是 GitHub 上唯一一个数据较全(包含了港澳台地区数据及一些官方通报中的数据)、目前还在积极维护的中国地区 covid-19 数据的项目。

https://github.com/LeslieLeung/covid-19-cn-nhc

2471 次点击
所在节点    分享创造
10 条回复
icemaple
2022-02-14 09:38:10 +08:00
这种信息采集统计感觉有点刑
LeslieLeung
2022-02-14 11:32:04 +08:00
@icemaple #1 都是公开的数据应该没关系吧?而且采集的速率跟正常访问没有太大区别,不会对服务器造成很大的压力。
icemaple
2022-02-14 14:07:08 +08:00
@LeslieLeung 《互联网新闻信息服务管理规定》第五条 通过互联网站、应用程序、论坛、博客、微博客、公众账号、即时通信工具、网络直播等形式向社会公众提供互联网新闻信息服务,应当取得互联网新闻信息服务许可,禁止未经许可或超越许可范围开展互联网新闻信息服务活动。
gengchun
2022-02-14 14:48:36 +08:00
前两天刚看了社会新闻。一个爬虫写得太差,采住房信息把住建委网站,不小心把网站爬死的,乙方通过报警来敷衍甲方的。结果,写爬虫两人直接进去的。
gengchun
2022-02-14 14:50:28 +08:00
另外卫健委的这个数据,阿里或者其它第三方都是有提供的。

阿里这种还是可以相信一下的。这种风险一定要记住让大厂承担哈。
LeslieLeung
2022-02-14 15:03:02 +08:00
@icemaple #3 @gengchun #5 感谢提醒,我原本还打算提供 api 供数据查询的,没考虑到法律风险。但是采集数据作为数据集开源应该没问题吧?我自己采集这个数据用途就是做疫情相关的研究。
另看了一下丁香园有相关的 api ,后续会考虑采用这边的数据。
gengchun
2022-02-14 15:08:54 +08:00
@LeslieLeung 我说的是你把这个开源出来。这个和你下载数据的用途没有关系。国内司法操作上,对爬虫的处理基本上和计算机病毒差不多了。你想想计算机病毒的作者刑不刑?这种事完全看对方人品哈。

有些能力自己知道就好了。不要拿出来。
LeslieLeung
2022-02-14 15:45:21 +08:00
@gengchun #7 明白了 感谢老哥提醒
HiCoder
2022-02-15 11:32:11 +08:00
big brother is watching u
warcraft1236
2022-02-16 16:26:01 +08:00
@HiCoder 哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/833625

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX