快捷搜索:

预警、检测、预防、治疗,大数据和AI能为医疗行

全世界在COVID-19(又名:新型冠状病毒)的影响下,经历前所未有的时代,城市被封锁,无数人被隔离时。我们的医疗工作者,正不倦地工作,以应对突然到来的患者激增。医院和其他临床设施严重缺乏床位,无法容纳越来越多的受感染患者。这场全球危机不仅考验了我们的医疗体系,而且也严重影响了我们的经济和社会生活。

预警、检测、预防、治疗,大数据和AI能为医疗行

还会有更糟的情况出现吗?COVID-19还将夺走多少生命?经济还会受到多大的冲击?我们还能坚持多久?

全世界的数据科学家都在试图找到这些问题的答案。自2019年12月武汉首例冠状病毒病例以来,我国启动了强大的技术部门,特别是数据分析和人工智能,用以跟踪和治疗这一流行病。随着冠状病毒在全球蔓延到100多个国家,追踪冠状病毒的人工智能系统在世卫组织承认冠状病毒前几天就发出了警告。


数据科学技术,如人工智能,或者更具体地说是机器学习,已经推动了一系列行业的显著转变。在许多正在广泛探索使用ML的领域中,由于患者数据可用性的激增,ML在医疗保健领域的应用正见证着革命性的发展。虽然没有一种算法可以取代人类触摸的温暖,以及强调医患关系的同情心,但有前途的数据科学技术肯定可以通过提供诊断和治疗过程的洞察力来补充医疗和保健人员的努力,从而有助于改善结果和加强病人护理。从微软利用计算机视觉作为医学图像诊断工具的内眼技术,到Alexa进军国内慢性病护理领域,我们必将见证一个从诊断-治疗模式到预测-预防模式的决定性转变,这一转变将随着患者的痛苦而降低成本。因此,ReportLinker预测到2025年“医疗保健人工智能”市场规模将从2018年的21亿美元激增至361亿美元,复合年增长率高达50.2%,这并不令人意外。

预警、检测、预防、治疗,大数据和AI能为医疗行

尽管数据科学在许多方面帮助了从业者、患者和决策者,但这篇文章将特别深入探讨我们如何应对和防御流行病可以使用数据支持工具来预测/预测疾病动态。

疾病传播的监测、建模和预测

在我们日益缩小的世界里,由于全球旅游、城市化和气候变化的增加,传染病的威胁比以往任何时候都更加猖獗。甚至在冠状病毒大流行之前,每年就有超过1700万人死于传染病。然而,疾病传播快,知识传播快!利用数据科学工具,可以利用现代技术的巨大数据生成能力,深入了解疾病的实时监测,从而预测疾病的传播。跟踪和预测传染病爆发的动态,对于卫生资源分配的决策和公共政策的选择和实施以尽量降低发病率和死亡率的适当干预措施非常有用。

1.方法

我们在这里主要处理的是特定疾病随时间变化的趋势或“时间序列数据”。我们对疫情在历史时期内表现出显著活动的情况进行建模,并对当前或未来可能出现的复苏时期进行监测。其nowcast(实时发生案件数量的估计)或预测估计有助于公共政策的重要指标包括:

每日/每周确诊病例数峰值时间峰值高度(表示事例计数的曲线)爆发持续时间和规模

此外,目标变量(小时/每日/每周/每月)的粒度将取决于可用输入数据的粒度。例如,如果我们有每月的数据点,我们的目标预测就不能在较低的粒度上,比如每周。然而,需要注意的一点是,数据的粒度越细,我们对其分析和解释就越有控制力,从而更好地洞察了流行病的动态。

一些模型试图将空间数据与时间数据结合起来。这主要是通过按地理区域划分数据,从城市和地区到国家或纬度范围不等。这是有道理的,特别是在流行病的情况下,因为不同地区和居住在那里的人口的特殊性可能在疫情的动态中发挥重要作用。在时空分析的情况下,上述目标参数也分别为每个区域估计,有时通过使用来自特定地理区域的数据微调模型。

2.数据

传统的监测系统利用从全国数百家医疗机构收集的病毒学和临床数据发布疫情报告,通常每周发布一次。这种方法虽然可靠,但成本高,速度慢。这些报告中的数据有1至2周的延迟。为了对疫情进行实时监测,正在从监测流感活动间接信号的创新监测系统中获取数据。

(1)网络搜索查询和社交网站数据

大约80%的互联网用户在网上搜索有关他们面临的医疗问题的信息,使网络搜索查询成为有关健康趋势的独特有价值的信息来源。不足为奇的是,人们发现寻求健康的网络搜索行为与患者在同一时期内出现相应疾病症状的就诊百分比高度相关,季节性流感疾病(ILI)尤其如此。

预警、检测、预防、治疗,大数据和AI能为医疗行

基于搜索查询日志(黑色)和实际ILI案例数(红色)的模型预测ILI案例

当然,某些搜索查询的相关性比其他查询更高。此外,应监测其搜索频率并将其用于预测疾病活动的模型中的一组术语或短语可能随时间和不同区域而变化。因此,有一些工具使用机器学习和统计模型,在给定区域的给定时间段内自动发现特定疾病的最具指示意义的查询集。

许多研究还表明,利用社交网站(SNS)对流行病流行情况进行实时分析是成功的。SNS被许多人广泛应用于分享思想甚至健康状况。因此,它们为疾病监测提供了一种有效的资源,同时也是传播预防流行病和大流行意识的良好途径。SNS用户可以用作传感器,为早期趋势检测和预测提供数据分析。Twitter是一个特别成熟的资源,因为它的发帖频率可以进行一分钟一分钟的分析,它的用户群体从年轻人到精通技术的老年人,导致数据点跨越整个年龄段。此外,与搜索引擎日志相比,Twitter的帖子更具描述性,通过用户资料对海报的人口统计数据进行更深入的分析可以提供更深入的见解。

(2)气象和环境数据

气候变化是影响疾病传播动态的已知因素,特别是季节性流行病。例如,研究发现,降雨量对流行性疟疾的年际变化有显著影响,这意味着将降雨量作为输入变量纳入疟疾暴发预测模型。因此,诸如降雨量、温度变化和湿度等气象数据提供了重要的数据点,可用于预测与疾病有关的目标参数的模型中。

其他环境因素,如植被指数、人口密度(是的,人类是我们环境的一部分)、空气质量也可以根据它们与特定疾病传播的相互关系纳入模型。

(3)临床监测数据

当我们处理时间序列时,传统的监测数据,如历史病人计数、历史疾病持续时间和峰值都会起作用。例如,过去两周的疾病活动可能预示着未来一周的趋势。在建立预测模型时,这些数据点尤其有用,这些模型需要经过培训,以便从历史趋势或捕捉滞后关系的趋势中学习模式。

另一种提供近实时病人信息的临床数据是电子健康记录(EHR)。EHRs提供了大量关于患者的信息,例如他/她的人口统计和病史,这些信息可能导致对情况的更细致的分析。此外,来自EHRs的数据可以合并,以提供显示症状的患者数量与实际患病的患者数量的统计数字。

(4)其他数据

其他表明疫情规模的间接数据包括非处方药销售,这些数据大多是在ILS病例中观察到的。有些研究甚至使用基于历史证据的(伪随机)发病率模拟。

3.模型

以下是文献中用于分析流行病时间序列数据的一些最常见模型:

(1)ARIMA:

ARIMA(Auto-Regressive Integrated Moving Average)及其变种是建模时间序列数据的最有效方法之一。实际上,它也是最常用的传染病时间序列数据建模方法。由于ARIMA模型假设未来的值可以根据过去的观察结果进行预测,因此它与上述临床监测数据点很好地配合,捕获了周期性收集数据中通常存在的滞后关系。

然而,ARIMA模型在处理不同季节不一致的疾病(如ILI)或预测淡季发生的流行病时可能受到限制。此外,ARIMA不能很好地处理非结构化数据,如搜索查询日志和SNS中的数据,这些数据在疾病的当前预测中扮演着越来越重要的角色。

(2)回归模型:

多元线性回归是最常见的回归分析形式,已应用于疫情预测研究。这些模型捕获了各种数据点,包括自回归和季节参数以及(滞后的)天气协变量。一般来说,回归模型会针对空间粒度更细的不同人群进行微调,例如针对一个国家内的每个城市或州。

(3)神经网络

考虑到输入数据特征的多样性,如果有大量的数据可用于训练神经网络,那么使用神经网络是一个不错的选择。在分析多模态复杂数据集时,神经网络需要有限的特征工程,就像使用多种类型的数据集进行暴发预测一样。

(4)其他方法

除上述方法外,还使用了各种特定于数据的其他方法和模型。例如,文本挖掘与主题模型或图形数据挖掘相结合,用于从搜索查询和SNS数据中提取和分析特征。此外,还可以使用不同方法和模型的组合来组合多个特征数据类型,以构建用于此目的的robust系统。


现在已经出现了非常多方法,使用我们掌握的强大工具:数据,帮助我们应对疾病爆发。其中最成功的措施已经在更大范围内得到效仿,并正在协助各国政府和公共政策加强病毒防护。只有当我们开始相信这些警告并采取必要措施,即使它们看起来反应过度,我们也能真正从中获益。

科技改变生活,医疗行业随着大数据和人工智能技术的进步,将得到大幅度的改善,不管是治疗、检测还是预防,都能起到非常重要的作用。

在不久的将来,你将能感受到技术的进步给医疗行业带来多大的颠覆!

--END--

翻译:未艾信息(www.weainfo.net)

查看更多最新资讯,欢迎大家点击阅读原文登录我们的AI社区。

以及关注我们的公众号:为AI呐喊(weainahan)

您可能还会对下面的文章感兴趣: