仅从数据来看,目前的新型冠状病毒有多严重?

2020-01-26 20:10:58 +08:00
 wstart

0x00 声明&目的

声明:

目的:

本文探讨的主要目的是,有没有一种算法可以根据已有的数据对疫情进行预测和评估,可以方便在疫情出现的时候,根据预测的数据来判断当前的疫情状况。

文章分为 5 段

Ps : 心急的朋友可以直接拖到末尾 看结论。

(写本文时的疫情状况,图源丁香)

0x01 猜想

由于当前新型冠状病毒的数据并不多(从 11 号-26 号),所以仅仅是新型冠状病毒的数据来做研究是不够的,必须还要一组参考验证组。(当然是越多越好,但是精力有限,所以只找了一组)。

首先明确一下判断疫情的严重情况的指标,目前疫情一般会公告这四个数据:

由于我们把地区限定在了中国(虽然各个地区不一样),所这个地区的指标就不用了,死亡人数在疫情的前中后期都不太一样,这个也不用。疑似病例这个和各地的收诊情况有关系,比如香港的疑似病例就非常多,确诊很少,所以这个指标也不采用,剩下就以确诊病例作为唯一的参考指标。

猜想 1

假设病毒的传播和地区,气候以及病毒自身的特征有非常大的关系,那么只要找到一个和新型冠状病毒这三个属性非常相似的病毒,只要算法能够对这种病毒的确诊病例进行预估和判断,那么算法也可以对新型冠状病毒进行预估和判断。

( 03 年 4 月 22 日 SRAS,图源..不太清楚)

目前和新型冠状病毒最像的应该就是 SARS: 气候和现在差不多,1 月和 3 月。 地区主要是是中国。 病毒类型:都是冠状病毒,都有发烧咳嗽等特征。

那么基于上述的条件,采用了 SARS 作为参考组。

猜想 2:

可以给定一个 Δ,

0x02 数据的准备

确诊病例的数据

如果可以拿到 SARS 在 1 月份的数据就好了,可惜没有一个比较完整的地方有记录,基本上卫生部发布的好像是从四月份开始。于是只能采用四月份的数据了。

评估的算法

采用了 LSTM(长短期记忆网络),搭建的话 Keras。LSTM 已经是个老算法了,经常用于量化投资(简单点来说就是炒股之类,预测股票的增长),非常擅长于时间序列的预测。 最终调教后的算法模型是,根据过去三天的数据,可以预估最新一天的数据。

LSTM

实验的环境

数据量比较少,直接租了一台 16 核 8G 的云主机进行测试。

0x03 猜想验证

猜想验证部分直接全部使用 WHO 的 SARS 的数据进行验证。采用的字段是 Cumulative number of case(s),累计病例数,我这里就当它是确诊人数了。

SARS 的数据分别有两部分,一部分是中国大陆的,一部分是中国香港的。 在 5 月份后基本已经趋于平缓,所以只取了前两个月(约 60 天左右的数据)。

中国大陆确诊人数变化曲线

中国香港确诊人数变化曲线

可以看到数据涵盖了病毒爆发期,病毒平稳增长期,以及病毒被消灭期,比较合适用来验证算法是否可以拟合整体的曲线。

0x031 猜想一

这里采用前 50 天的数据做训练样本,训练的结果用来预测 60 天的情况, 预测和实际的对比如下:

中国大陆 SARS 确诊人数变化曲线(预测和实际)

中国香港 SARS 确诊人数变化曲线(预测和实际)

从图中我们可以看到,在使用了 90%的数据量下,数据是拟合的比较好的,肉眼看上去香港的数据基本可以用算法完全预估。这里给一下数据误差的对比情况:

说人话就是,模型预测的数据和实际的数据最多差了 6%。效果是非常理想的。这里我们可以证明第一个猜想,即 LSTM 可以用来拟合 SARS 确诊人数的变化情况。

0x032 猜想二

实际上虽然猜想一得到了证实,但是依旧没啥用,因为这里的模型是使用了 90%的数据,基本已经到了传播的后期。那么前期是否可以使用同一个模型进行验证呢? 这里只取中国大陆的数据进行试验。

根据三个阶段(这三个阶段是肉眼判断截取的,是否合理当时没有考虑)截取对应的数据进行建模,建模后的预测效果如下:

前期的数据建模人数变化曲线(预测和实际)

中期的数据建模人数变化曲线(预测和实际)

后期的数据建模人数变化曲线(预测和实际)

在前期的数据的预测中,到后面两个阶段实际的数据都比预测的数据比要大,说明在疫情开始了爆发。

在中期的数据的预测中,其他两个阶段预测的数据基本都比实际的数据要大, 说明在疫情在前期的感染速度较低,后期的感染速度也变低 。

根据上面两个数据,是可以推测是存在一个 Δ 去判断当前的疫情状况的。但是 Δ究竟是多少呢,这里倒是可以根据好几个因素去设置:

这里就偷懒了,可以明显看到各个时期都有一个或者多个转折点(消亡期不算),直接取最接近转折点的误差率来计算:

两个取平均作为 Δ的值,也就是 0.175 。

0x04 新型冠状病毒确诊数据的预测和验证

(新型冠状病毒从 16 号至 26 号确诊人数变化曲线)

分别取前 6 天的数据(到 20 号),取前面 9 天的数据(到 25 号)的数据代入模型进行预估

到 20 号的数据模型确诊人数变化曲线(预估和实际)

到 25 号的数据模型确诊人数变化曲线(预估和实际)

为什么选 20 号呢,20 号主要是央视有采访钟南山大佬,而且第一次说明了人传人的存在,以及 14 名医护被感染。我觉得应该算是开始重视这个病毒的一个点,随后各地开始上报疫情,发布以及响应等。

再往前的时间点就数据就比较缺失了,模型精准度已经失去了使用的价值,所以采取了 20 号的这个时间点作为分隔来建造模型。

如果以到 20 号的模型来估算的话,第一次误差偏离 0.17 的时间是 23 号,误差为 0.19 。23 号,广东,浙江启动了一级响应。确诊的病人增多。但个人感觉应该是检测的方法变强导致的,侧面来看,模型的确检测除了异常值,不过并不能够说明病毒变强了。

如果以到 24 号的模型来看,预估的 25 号的数据是 1877,实际的数据 1972,误差率在 0.04 ,未到偏离值。所以根据这个模型推断,当前疫情还在持续扩散中,但是并没有进一步恶化,可能国家的高度重视和很多省份都开始参与其中有关系。

依照当前的模型,明天的确诊人数的预估值是 2770,加上 0.17 的误差的话

再次声明:

以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

那么,如果我们带入 SARS 最严重的的时候,会怎么样 ?

还是按照误差 0.17 来算,在 23 号,误差达到了 0.18 ,也就是 3 天前,按照这个模型的数据推算,新型冠状的病毒传染性比 SARS 要强。 但也可能是和春运有关系,毕竟数据的时间不一致。

再再次声明:

以上的观点和结论都属于依据当前的确诊人数所作的推断,毫无参考的意义和价值。如果数据刚好对了,不能说明什么,如果数据错了,证明这个模型真的不行。

0x05 再多讲几句

写这个的目的纯粹是为了探讨和研究,实际上,真的要写一个这种疫情预测和评估的系统,需要非常多的参考的数值,比如医护人员的数量,检测手法准确率,时间,病毒的潜伏期等等,需要非常多的人力物力才可以编写完成,像本文这种只靠单一维度的输入去判断和预估的模型和玩具没什么区别。

但是在编写的过程中也发现很多问题,,疫情的相关数据还是多方寻找才找到一部分 。

希望在这次的疫情中保留比较详细的数据 这些都可以作为系统的的输入,借助这些数据,打造一个强大完整的疫情监控和评估系统,甚至不是疫情,而是重大事件的监控和评估系统,待下次再出现疫情、灾情,可以快速的调度全国的资源进行处理和援助。

最后,祝大家春节快乐, 多注意个人卫生, 带好口罩。

24570 次点击
所在节点    Python
99 条回复
gamexg
2020-01-27 00:33:07 +08:00
@just1 印象加现有医院已经上 w 床位了
just1
2020-01-27 00:35:32 +08:00
@gamexg #21 喔对我忘记了现有的,我只想了新建的雷神和火神。
whwq2012
2020-01-27 00:36:32 +08:00
@hyyou2010 省外怎么不会瞒,至少江西的绝对瞒了。用国外的数据估才有准确性
Allianzcortex
2020-01-27 00:39:02 +08:00
这种预测 domain knowledge 很重要,没有 CDC 流行疾病知识直接用 LSTM 就真的是黑盒子
coloz
2020-01-27 00:43:06 +08:00
@just1 注意看我说的是“计划的床位数”
lunafreya
2020-01-27 02:38:19 +08:00
拿着一维数据跑个 LTSM ???那写这么多东西干啥?手动黑人问号。
morethansean
2020-01-27 02:47:44 +08:00
@PbCopy111 #5
...流感怎么会没有人死,只是没有像这样报道呀...比如按照交通部公布的数据,17 年交通事故死亡人数达到 6w 多人( WHO 很怀疑这个数值认为应该在 20w 以上),如果强行算个平均,每天死亡一百七十多人,听起来是不是很夸张?但这就是事实,世界太大了,中国也很大,意外和死亡时时刻刻都在发生着,但是没有新闻报道你不能就觉得没有人死了啊...
WinG
2020-01-27 03:22:15 +08:00
@lunafreya 我也纳闷,这点数据量上神经网络了.......
zdkmygod
2020-01-27 03:46:04 +08:00
这次病毒的症状和致死率比 1201 非典和 1202 中东都要低很多,目前死亡人群中大部分也是长期病史的老年人,目前也就是个超级流感,大家也不用太紧张。但是冠状病毒的特点是有一定几率编译成为致死刑更高的病毒,所以也不能放松警惕。

楼主的结论是什么呢?因为目前还在很前期的关系,所以预测的误差应该很大,所以终值没有预测?只是预测了明天的确诊人数并给出推断?
ladypxy
2020-01-27 04:10:53 +08:00
@zdkmygod 你完全低估了这病毒。就国内这措施,全国一级响应,连春节都延长了,你说这是超级流感? 1/3 的患者需要进 icu 是什么概念你有想过么
zdkmygod
2020-01-27 04:27:48 +08:00
@ladypxy 非典死亡率 10 +%,中东呼吸综合征 30 +%的死亡率,目前新型冠状病毒不到 3%的死亡率完全就是宝宝级别的。你说的 1 / 3 进 ICU 麻烦给个出处谢谢。
给你看看超级流感是个什么样子:1918 年的 H1N1 甲型流感。传染性极强,全球 5 亿人感染。最保守估计 2 千多万人死亡。
你觉得我说超级流感就是低估了新型冠状病毒了?
blless
2020-01-27 04:38:48 +08:00
@beimenjun 8.8w ? 数据不是每 10w8.8 人吗?
zdkmygod
2020-01-27 04:39:11 +08:00
@ladypxy 1 / 3 的 ICU 我搜了一下,第一批 41 位病人才是 1 / 3 需要重症监护,所以请不要传播不实扭曲的信息,谢谢。
用常识想一下,武汉两所新建医院需要建六七百个 ICU,什么鬼斧神工才能在六天内完成?
zdkmygod
2020-01-27 04:42:26 +08:00
@blless 国内专家发表论文估计我国按美国标准计算流感死亡率,每年致死人数为 8.8w 。
LHStone
2020-01-27 05:12:26 +08:00
可怕的不是死亡率。。是没有有效的治疗手段,钟南山当年的方案是用激素硬打,治好了基本上就是废人了。不知道现在到底什么方法治疗
duola1024
2020-01-27 06:49:55 +08:00
@zdkmygod 这个病毒主要是传播能力太强,致病能力对于大部分年轻人,体质好就可以抗过去,所以年轻人不必太惊慌。
但对中老年人,只要被传染就是个大问题。所以想象一下自己家里老人被传染,自己会有多着急,就不难推断出,假设现在不严格控制,全国医疗体系会承受多大的压力,很可能比收到援助前的武汉更严重。全国医疗体系一旦集体承压就可能出现非常严重的社会动荡。所以现在防患于未然是非常有必要的。
chinesestudio
2020-01-27 07:19:24 +08:00
#疫情通报

[#湖北 新增 371 例确诊病例,累计确诊 1432 例]
1 月 26 日 0-24 时,湖北省报告新型冠状病毒感染的肺炎新增确诊病例 371 例,新增死亡病例 24 例,新增出院病例 2 例。其中:潜江市首次报告确诊病例,新增确诊病例中,武汉市 80 例、黄石市 5 例、十堰市 20 例、襄阳市 34 例、宜昌市 11 例、荆州市 14 例、荆门市 52 例、鄂州市 19 例、孝感市 45 例、黄冈市 32 例、咸宁市 21 例、随州市 16 例、恩施州 8 例、仙桃市 1 例、天门市 8 例、潜江 5 例;新增死亡病例中,武汉市 18 例、荆门市 2 例、孝感市 1 例、黄冈市 2 例、潜江市 1 例;新增出院病例中,武汉市 2 例。

截至 1 月 26 日 24 时,湖北省累计报告新型冠状病毒感染的肺炎确诊病例 1423 例,重症病例 221 例,危重症病例 69 例,死亡病例 76 例,出院病例 44 例。其中:确诊病例中,武汉市 698 例、黄石市 36 例、十堰市 40 例、襄阳市 36 例、宜昌市 31 例、荆州市 47 例、荆门市 90 例、鄂州市 20 例、孝感市 100 例、黄冈市 154 例、咸宁市 64 例、随州市 52 例、恩施州 25 例、仙桃市 12 例、天门市 13 例、潜江 5 例;重症病例中,武汉市 141 例、十堰市 4 例、襄阳市 3 例、宜昌市 2 例、荆州市 10 例、荆门市 28 例、鄂州市 1 例、孝感市 9 例、黄冈市 16 例、随州市 2 例、恩施州 2 例、仙桃市 2 例、潜江市 1 例;危重症病例中,武汉市 51 例、襄阳市 1 例、荆州市 1 例、荆门市 3 例、孝感市 3 例、黄冈市 9 例、天门市 1 例;死亡病例中,武汉市 63 例、黄石市 1 例、宜昌市 1 例、荆州市 2 例、荆门市 3 例、孝感市 1 例、黄冈市 4 例、潜江市 1 例;出院病例中,武汉市 42 例、黄冈市 2 例。

目前追踪到密切接触者 10394 人,已解除医学观察 1291 人,尚有 9103 人正在接受医学观察。
(央视新闻微博)(湖北卫健委)
mastcer
2020-01-27 08:23:30 +08:00
截至 1 月 26 日 24 时,国家卫生健康委收到 30 个省(区、市)累计报告确诊病例 2744 例,现有重症病例 461 例,累计死亡病例 80 例,累计治愈出院 51 例。现有疑似病例 5794 例。
目前累计追踪到密切接触者 32799 人,当日解除医学观察 583 人,现有 30453 人正在接受医学观察。
累计收到港澳台地区通报确诊病例:香港特别行政区 8 例,澳门特别行政区 5 例,台湾地区 4 例。
另外,累计收到国外通报确诊病例:泰国 7 例,日本 3 例,韩国 3 例,美国 3 例,越南 2 例,新加坡 4 例,马来西亚 3 例,尼泊尔 1 例,法国 3 例,澳大利亚 4 例
wy7305e
2020-01-27 08:29:15 +08:00
这要逐日预报
lekai63
2020-01-27 09:03:49 +08:00
楼主的预测结果至少今天看了已经相当精准了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/640423

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX