看了之前老哥做的那个「不明肺炎在线地图」,我也撸了一个地图,数据爬虫可以自动采集

2020-01-21 22:38:57 +08:00
 LawlietZ

仓库: https://github.com/ZhangMingZhao1/2019nCoV-Virus-MapMonitor

目前就采集丁香园的数据,明天部署线上 =-=

本来打算做个热力图的,发现热力图的坐标数据有点难造。。。

demo:

5506 次点击
所在节点    分享创造
34 条回复
LawlietZ
2020-01-21 23:03:19 +08:00
看了 v 站一些老哥做的,数据都是写死的。。早过时的数据。。我这里提供一个最新数据的 api,靠爬虫收集更新:
http://119.23.185.187:8088/spider/dxy
zchzch1014
2020-01-22 01:14:20 +08:00
有的省份只是疑似病例,还没有确诊,但是 API 内没有对此进行细化,可能会不太严谨
LawlietZ
2020-01-22 02:10:42 +08:00
@zchzch1014 是,目前我觉得对我们来说“疑是”也是一种危险,所以就也当做了患者数目
locoz
2020-01-22 02:15:53 +08:00
重复造轮子有啥用…
cye3s
2020-01-22 03:40:37 +08:00
卫生部不让医院说
ares586
2020-01-22 09:46:51 +08:00
我觉得做的不错呀,连接口都开放了,赞一个。
我不同意重复造轮子的说法,每个人都需要练习。动手敲代码,总比无意义的吐槽有用吧~
mara1
2020-01-22 10:10:46 +08:00
@ares586 自己动手是鼓励的,比我强,我就懒的动手。
吐槽也是有意义的,连着这么多帖子都是热力图,让我想起了前阵子,也是满屏的一个动态吐槽的页面,说实话,我只点开了第一个,后面的,没有新东西,我就没再挨个点开。

网站最下面有句话: “创意工作者的社区”。
avrillavigne
2020-01-22 12:02:46 +08:00
LawlietZ
2020-01-22 13:56:43 +08:00
@locoz 并不算重复造轮子 我这个数据是爬虫自动维护的
LawlietZ
2020-01-22 13:56:59 +08:00
@avrillavigne 嗯嗯
locoz
2020-01-22 15:21:37 +08:00
@ares586 #6
@LawlietZ #9
这就是重复造轮子。原因很简单:
楼主在主贴中说了“目前就采集丁香园的数据”,然后看代码也确实就只是写了个爬虫接口解析了一下丁香医生发的那个 [全国新型肺炎疫情实时动态] 页而已,并没有对数据进行什么深加工之类的,只是单纯取了个人数的值而已。
而这个数据可视化的部分吧...首先地图是丁香医生那边原本就有的,楼主这个除了能看出哪边感染人数比较多以外,其实就没啥别的了。

整个项目可以说就是把丁香医生的数据抄过来,放到自己的页面上,然后就没啥别的了。如果这不叫重复造轮子的话,请问什么叫重复造轮子?

我的观点与 @mara1 #7 的差不多,写点东西练练手没啥问题,但是做出来的这个东西本身没啥特色,也没有啥意义的话,那做来干嘛呢?
LawlietZ
2020-01-22 15:24:45 +08:00
@locoz 嗯 是的,就是个人的小玩票,上升不到有没有用的层面的。
LawlietZ
2020-01-22 15:27:21 +08:00
@locoz 目前只采集丁香医生的,是因为线上网上就丁香医生的最新最跟进了,我本地代码还爬取了 wiki 的相关信息,但最终合并信息时和目前丁香园的信息能给的一样,所以也没提交上去
LawlietZ
2020-01-22 15:32:44 +08:00
@locoz 这些项目放在 v 的分享区没什么毛病的,对你没用可能对一些其他新手有用,试想你当初刚开始学前后端学网络协议的时候就没在网上搜索过“看起来重复且无意义的项目”吗,所以从另外一个角度上讲我们都是网络信息的贡献者,对您无用你直接不用点开即可,不用在自身层面上探讨过多的无用又用,这些又不是想盈利的企业项目,没有利益成本 kpi 之说。
rioshikelong121
2020-01-22 15:34:37 +08:00
重复造轮子挺好的,因为我们都需要练习,来造出更好的轮子。
locoz
2020-01-22 15:38:17 +08:00
@locoz #11 顺带一提,我个人认为这个项目也不会起到多大的练手作用,因为爬虫方面可以说是 0 难度的,Web 方面是调用的 Echart,说白了也就调包更熟练了而已...如果说是完全模仿丁香医生那个页面做了一个的话,当然可以掌握到很多相关的知识,对各方面都会有裨益。但是仅仅是现在这样而已的话,真的没啥用。

丁香医生的那个页面如果不是完全人工处理的话,那么至少存在:
1、对新闻源(新浪微博)进行高频率采集,实现实时的监控;
2、对采集到的新闻进行自动归类,找出其中与疫情状况相关的内容;
3、智能提取关键内容(这个目测是有部分人工处理的);
4、结构化病例数据,并提供一个接口,按照指定的时间渲染出一个对应时间的疫情地图并返回;
5、处理微信分享所需的一些东西

这哪怕拿出其中一两个作为练手,也比爬一下别人现成的数据、调用个 Echart 要更有练手的效果吧?

(以上言论对其他 V2 上最近出来的疫情地图也同样有效,都是大同小异)
LawlietZ
2020-01-22 15:51:29 +08:00
@locoz 大佬您批评的是~
locoz
2020-01-22 15:55:19 +08:00
@LawlietZ #14 不好意思我真没搜索过那种项目,我初学的时候是直接做的我自己实际能用上并且市面上没有合适产品的东西,以需求驱动学习。虽然一开始都只是调包而已,但至少我会了解到很多其他的相关知识,而不是只会调包...

发在分享创造当然没问题,这是你的权利。但你发出来不就是想要让别人看的吗?别人看了之后的评价和其他交互不正是发出来之后能给你带来的东西吗?

既然你发出来了,那有负面评价不是很正常的事情吗?还是说你只想看到满屏的夸赞、疯涨的收藏和感谢以及 GitHub 上的 Star ?如果是那样的话我建议你发到百度贴吧、天涯、虎扑之类的技术人员相对少的地方,包装一下之后绝对火。
LawlietZ
2020-01-22 16:07:00 +08:00
@locoz 你不要搞笑,这种小玩票谁会期望刷什么收藏和赞,我全篇有一个字提到收藏和 star 吗。看了您发的贴子,推销的你的公众号吃相那才真是难看。你写的很多不也是用用现成的抓包工具吗?你前面说的分析说实话还可以,有些可以吸取。但是你最后说的这个真是给你太减分。首先你自己开始的这个自诩,“需求驱动”..拜托别装 13 了。有些东西上升不了那么高度就不用扛,你是真的有精力。看了你帖子下面那么多评论说你我也就不提了,互 block 吧
iamverylovely
2020-01-22 16:14:14 +08:00
我今天晚上也做一个。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/639772

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX