清研智库:AI可能帮助应对下次大流行,但不是这次
如果我们希望AI在下次大传染中有用,我们必须做一些我们可能不喜欢的改变。
AI首先看到了大传染的来临,或者故事就这样了。 2019年12月30日,一家名为BlueDot的人工智慧公司使用机器学习来监视世界各地的传染病暴发,并向包括政府,医院和企业在内的客户发出警报,提醒中国武汉的肺炎病例出现异常增加。9天后,被世界卫生组织正式标记为我们都知道的Covid-19。
并不是只有BlueDot一家公司发现了这一现象。波士顿儿童医院的一项名为HealthMap的自动化服务也发现了这些最初的症状。正如位于旧金山的Metabiota运行的模型一样。 AI可以发现世界另一端的爆发真是令人惊讶,预警可以挽救生命。
但是,AI在解决当前疫情方面究竟起到了多少作用?这是一个很难回答的问题。像BlueDot这样的公司通常对向谁提供信息以及如何使用信息严格守口如瓶。人类团队说,他们在与AI的同一天就发现了疫情。将AI用作诊断工具或用于帮助寻找疫苗的其他项目仍处于早期阶段。即使成功,也需要花费时间(可能要数月),才能将这些创新掌握在需要它们的医护人员手中。
炒作超越了现实。实际上,许多新闻报道中出现的叙述(AI是一种抗击疾病的强大新武器)只是部分正确,并且可能适得其反。例如,过于相信AI可能导致错误的决策,以药物计划等经过验证的干预为代价,将公共资金汇给未经证实的AI公司。这对于该领域本身也是不利的:过分的期望导致对AI的兴趣大跌,并因此导致资金损失,这在过去不止一次。
因此,这是一个现实检查:AI不会将我们从冠状病毒中拯救出来-肯定不是这次。但是,如果我们做出一些重大改变,它很有可能在未来的传染病中扮演更大的角色。大多数都不容易。有些我们不喜欢。
AI可以在三个主要领域提供帮助:预测,诊断和治疗。
预测
诸如BlueDot和Metabiota之类的公司使用一系列自然语言处理(NLP)算法来监控世界各地不同语言的新闻媒体和官方医疗保健报告,并标记他们是否提及冠状病毒等高优先级的疾病或更流行如艾滋病毒或结核病。他们的预测工具还可以利用空中旅行数据来评估中转枢纽可能碰到感染者到达或离开的风险。
结果是相当准确的。例如,Metabiota在2月25日发布的最新公开报告预测,到3月3日,全球将有127,000例病例。但数据超了30,000,该公司数据科学总监Mark Gallivan表示,这仍然在误差范围之内。它还列出了最有可能报告新病例的国家,包括中国、意大利、伊朗和美国。再次印证了,不错。
其他人也关注社交媒体。 Stratifyd是一家位于北卡罗来纳州夏洛特市的数据分析公司,正在开发一种AI,该AI可以扫描Facebook和Twitter等网站上的帖子,并交叉引用来自美国国立卫生研究院、世界卫生组织等机构的疾病描述和动物健康部、全球微生物识别数据库,用于存储基因组测序信息。
这些公司的工作肯定令人印象深刻。它表明了近年来机器学习的发展。几年前,Google尝试通过Flu Tracker预测疫情,但由于未能预测当年的流感暴发,该产品在2013年被搁置了。发生了什么变化?这主要归结为最新软件具有资源监测范围更广的能力。
无监督机器学习也是关键。让AI在嘈杂中识别自己的模式,而不是在预先选择的示例上对其进行训练,可以突出可能没有想到要寻找的东西。 Stratifyd的首席执行官Derek Wang说“当你进行预测时,你正在寻找新的行为。”
但是如何处理这些预测? BlueDot的最初预测正确地指出了病毒路径中的少数城市。这可以让政府做好准备,向医院发出警报并采取遏制措施。但是随着传染规模的扩大,预测变得越来越不具体。 Metabiota关于某些国家将在下周受到影响的警告可能是正确的,但很难知道该如何处理。
而且,随着传染病的发展,所有这些方法都将变得不那么准确,这在很大程度上是因为很难获得关于Covid-19的AI所需的可靠数据。新闻来源和官方报道不一致。人们对症状以及病毒在人与人之间的传播方式感到困惑。媒体可能会夸大其词,政府可能会轻描淡写。预测疾病可能从几十个国家的数百个站点传播到何处比与在疫情爆发头几天预测可能传播的地方要困难得多。 Wang说:“嘈杂永远是机器学习算法的大敌。”实际上,Gallivan承认,在前两周,Metabiota更容易做出每日预测。
Gallivan表示,最大的障碍之一是缺乏诊断测试。他说:“理想情况下,我们进行一项测试能立即检测出新型冠状病毒,并至少每天对每个人进行一次测试。”我们不知道人们的行为——谁在家工作,谁自我隔离,谁正在洗手或不在洗手的行为—都可能产生影响。如果您想预测接下来会发生什么,则需要准确了解当前发生的情况。
不清楚医院内部正在发生什么。数据和AI咨询公司Pactera Edge的Ahmer Inam表示,如果许多国家(包括美国)不将公共卫生数据锁定在政府机构内部,则预测工具会更好用。这意味着AI必须更多地依靠在线新闻等随手可用的数据。他说:“当媒体发现潜在的新疾病时,已经为时已晚。”
但是,如果AI需要更多来自可靠来源的数据以在该领域中发挥作用,那么获取它的策略可能会引起争议。我与交谈的几个人强调了这种令人不舒服的折衷:为了从机器学习中获得更好的预测,我们需要与公司和政府共享更多的个人数据。
Apixio的总经理兼首席执行官Darren Schulte建立了一个从患者病历中提取信息的AI,他认为应该开放美国各地的病历进行数据分析。这可能使AI可以自动识别由于潜在疾病而受Covid-19威胁最大的个人。然后,资源可以集中于最需要这些资源的人。 Schulte说,存在读取患者记录并提取救生信息的技术。问题在于,这些记录分散在多个数据库中,并由不同的健康服务进行管理,这使得它们更难分析。他说:“我想将AI投入到如此庞大的数据海洋中, 但是我们的数据位于小湖中,而不是大海洋中。”
Inam认为还应该在国家之间共享健康数据,病毒不在地缘政治范围内运作。他认为,国际协议应迫使各国发布有关诊断和住院情况的实时数据,然后可以将其提供给全球流行的大流行机器学习模型。
当然,这可能是一厢情愿的想法。世界不同地区对医疗数据有不同的隐私法规。我们中的许多人已经不愿让第三方访问我们的数据。新的数据处理技术,例如差异隐私和对合成数据而非真实数据的识别训练,可能会为这场辩论提供一条途径。但是这项技术仍在完善中。在达成国际标准的协议上将花费更多的时间。
目前,我们必须充分利用我们拥有的数据。 Wang的答案是要确保在人们周围解释什么是机器学习模型,并确保丢弃不正确的预测。如果一个人过于乐观或依赖完全自主的预测模型,那将是有问题的。人工智能可以在数据中找到隐藏的信号,但是人类必须将点连接起来。
早期诊断
除了预测传染病的进程外,许多人希望AI可以帮助识别感染者。AI在这里拥有良好的记录。用于检查医学图像的机器学习模型可以捕获人类医生错过的疾病的早期征兆,从眼疾到心脏病到癌症。但是这些模型通常需要大量数据来学习。
在过去的几周中,网上已经发布了几篇预印本论文,暗示如果机器学习可以训练图像中明显的疾病迹象,则可以从肺组织的CT扫描中诊断出Covid-19。挪威卑尔根的西方挪威应用科学大学的AlexanderSelvikvågLundervold是机器学习和医学成像方面的专家,他说,我们应该期望AI最终能够检测出患者中感染Covid-19的体征。但是尚不清楚成像是否是必经之路。一方面,疾病的体征可能要等到感染后的一段时间才能显示出来,这使其不能作为早期诊断使用。
更重要的是,由于到目前为止尚无足够的训练数据,因此很难评估在线发布方法的准确性。大多数图像识别系统(包括经过医学图像训练的图像识别系统)都改编自在ImageNet上训练的模型,ImageNet是包含数百万张日常图像广泛使用的数据集。 Lundervold说:“要对类似于ImageNet数据的简单事物进行分类,例如狗和猫的图像,就可以完成。” “医学图像中的细微发现,没有那么多。”
这并不是说不会发生,而且可以构建AI工具来检测未来爆发的疾病的早期阶段。但是,我们应该对AI医生今天诊断Covid-19的许多说法持怀疑态度。同样,共享更多的患者数据将有所帮助,机器学习技术也将有所帮助,即使在数据很少的情况下,也可以对模型进行训练。例如,极短时间的学习(AI只能从少数几个结果中学习模式)以及转移学习(已被训练完成一件事的AI可以迅速适应类似的事情)的转移学习很有希望取得进步,但仍然在进行中。
治愈一切
如果AI要帮助开发疾病的治疗方法,数据必不可少。识别可能的候选药物的一种技术是使用生成设计算法,该算法会产生大量潜在结果,然后对其进行筛选以突出显示那些更值得仔细研究的结果。例如,该技术可用于快速搜索数百万个生物或分子结构。
SRI International正在使用这种AI工具进行协作,该工具使用深度学习来生成许多新颖的候选药物,科学家随后可以评估其功效。这是改变药物发现的游戏规则,但要使其成为可行的治疗方法仍需花费数月的时间。
从理论上讲,AI也可以用于预测冠状病毒的进化。 Inam设想运行无监督的学习算法来模拟所有可能的进化路径。然后,您可以将潜在的疫苗添加到混合物中,查看病毒是否突变以产生抗药性。他说:“这将使病毒学家比病毒领先几步,并在出现任何世界末日突变的情况下创造疫苗。”
这是一种令人兴奋的可能性,但也是遥不可及。我们还没有足够的有关病毒变异的信息,因此这次无法进行模拟。
同时,最终的障碍可能是负责人。 Wang说:“我最想改变的是决策者与AI之间的关系。”AI将无法自行预测疾病暴发,无论它获得多少数据。让政府\企业和医疗保健领域的领导者信任这些工具将从根本上改变我们对疾病暴发做出反应的速度。但是,这种信任需要来自现实的观点,即人工智能现在可以做什么和不能做什么,以及下次可能使它变得更好。
充分利用AI会花费大量数据、时间以及许多不同人之间的智能协作。目前所有这些都供不应求。
本文作者Will Douglas Heaven,本文原载与MIT科技评论,清研智库李梓涵编译。