全球最可靠疫情图每天点击量超10亿,由两名中国留美博士生操盘

      最后更新:2020-04-08 12:55:41 手机定位技术交流文章

      霍普金斯大学的全球流行病分布图(屏幕截图)

      一张在左右两边有黑色背景和红色斑点的地图列出了在不同国家确认的、死亡的和康复的病例,这已经成为最近一些国际新闻的背景图片。当美国副总统伯恩斯访问卫生部时,美国卫生部利用这张地图在全国范围内监测病例。当意大利总理和德国内阁开会时,他们身后的电子屏幕也依靠这张地图来显示疫情的实时情况。

      这个数据图是由约翰·霍普金斯大学系统科学与工程中心(CSSE)的一年级博士生董恩生等人发起并维护的。起初,他只想通过跟踪数据来观察流行病从出生到死亡的整个过程,并将这些数据作为他研究疾病的工具。现在,这个每天点击量超过10亿次的网站已经成为许多国家高级政府官员、公共卫生学者和主流媒体引用最多的疫情数据来源。更新和运营网站已经成为董恩生的“主营业务”。

      “无意的”互联网红色数据项目

      1月21日寒假结束后,在一次博士生小组会议上,董恩生的导师、系统科学与工程中心副教授劳伦·加德纳(Lauren Gardner)与大家谈论了新学期的计划。当他听说中国的新皇冠肺炎很严重时,他问董是否想做一个数据仪表板。

      董恩生的研究方向是疾病模型,即利用数学模型和计算机代码来解释一些流行病学和公共卫生问题,并对全球流行病的发展趋势做出基本判断和推测。那时,他已经在收集数据来做这件事了。两人一拍即合。七八个小时后,第一版疫情可视化地图准备就绪。1月22日,该网站正式上线。

      去年5月和6月,董恩生和劳伦加德纳在另一个流行病学风险分析项目中制作了类似的数据可视化地图,吸引了美国主流媒体的一些报道。因此,他说技术思路相对成熟,可以很快调试上线。另一方面,由于他在中文方面的优势,只需要从中国国家卫生委员会获取数据,因此早期团队比世界上其他一些数据源更及时地了解中国的疫情。

      董恩生(右)和杜洪如参加了今年一月在美国举行的学术会议。(照片来源twitter)

      在最初的几天里,数据由他手工整理,每天可以更新4-5次。2月1日之后,这种方法变得不可持续,因此项目转向半自动更新:中国的疫情数据来自丁香园的自动更新,而其他国家的数据仍需要人工审查。为了在不同国家发现新病例,他们的监测渠道包括世界卫生组织(世卫组织)、推特、新闻报道、地方卫生部门提供的数据等。在这个阶段,另一名博士生杜洪如也参与了数据收集和图表制作。

      到3月初,数据小组已经将美国的疫情信息细化到县一级。“因为美国大约有3000个县,加上世界上200多个国家和地区,手工完成非常困难。”董恩生告诉《中国新闻周刊》,所以团队招募了一些志愿者,并把工作人员分成许多小组,一些负责国外,一些负责美国不同地区,然后一天24小时发布最新数据。

      2月19日,董恩生、杜洪如和劳伦加德纳在《柳叶刀》杂志上发表了一篇描述这项工作的文章。文章比较了约翰霍普金斯大学系统科学与工程中心、世界卫生组织和中国疾病预防控制中心的数据报告。结果显示,他们的病例数据与后两个报告一致,并且他们在新的国家或地区捕获第一个报告的COVID-19(新冠状病毒)病例时更及时。

      董恩生表示,世卫组织分为不同的区域,每个区域都会及时更新数据,但当数据被总部收集并正式发布时,通常是第二天——当然,事故也很少,尤其是在最初完全依赖人工操作的情况下。一个星期六的早上,澳大利亚报告了第一例确诊病例,但是因为董恩生当时正在睡觉,所以没有及时更新。

      在这个过程中仍然有许多具体的困难。例如,2月中旬,“钻石公主”号客轮的一些乘客撤回美国。由于病人的确切位置不得而知,他们选择在美国相对的地理中心堪萨斯做标记。然而,一些美国人放大了地图,最终发现这个点落在他们的社区,他们相信在他们的社区有一个案例,他们逐层报告。后来,学校要求他们迅速调整,所以标记点暂时回到日本横滨港。

      如何统一数据的定义也是一个问题。尽管用户看到了“确诊病例”和“死亡人数”的标签,但该团队实际上在不同国家甚至同一个国家面临着这些概念的不同定义。例如,董恩生表示,美国疾控中心统计的“确诊病例”一开始要求核酸检测阳性加疾控中心确认才能确诊,但他们使用的是“推定阳性病例”的估计,即确认数据是指由州或地方实验室确认的病例,但没有疾控中心确认,所以数量比疾控中心多。

      可靠的数据是研究和决策的基础。

      在线科学出版物《数字趋势》3于3月28日发表了一篇名为“最可靠的新皇冠疫情仪表板”的文章,其中提到了六个可视化疫情数据报告平台。约翰·霍普金斯大学的系统得到了最高的评价。原因是该平台“具有最好的视觉设计、清晰的导航、方便的阅读,并且是六个平台中更新最频繁的。”

      美国疾病控制和预防中心也是平台之一。然而,该网站指出,该网页从周一至周五中午定期更新,显示的数据是截至前一天下午4点的统计结果。还有一份书面提醒,疾病预防控制中心与各州和地方公共卫生部门报告的病例之间存在差异,各州报告的病例是最新数据。董恩生表示,疾控中心在疫情早期的数据准确性相对较低。它只报告了每个州的病例数。这种操作模式使得疾控中心的数据可视化不如约翰·霍普金斯大学的数据项目受欢迎。

      3月6日,在华盛顿国会山的一次简报会上,劳伦·加德纳表示,仪表盘已经被关注了一段时间,现在平均每天的点击率为10亿次,峰值为每天20亿次。这一时期有几个高峰。例如,当疫情在意大利爆发时,许多意大利人涌入网站,意大利用户的数量超过了美国。

      由牛津大学创建的“用数据看世界”网站解释说,在监测世界各国新获得的流行病数据时,他们最初提到三个数据来源:世卫组织、欧洲疾病控制和预防中心(ECDC)和霍普金斯大学。目前,他们已经放弃从世卫组织获取数据,部分原因是世卫组织修改了3月18日的每日统计截止日期,部分原因是其数据库中的错误。

      “谁在使用这个仪表板?据我所知,几乎每个人都使用它。它在几乎所有的社交媒体渠道都很受欢迎,并且已经传播到美国的地方、州、联邦和公共卫生机构。”劳伦·加德纳说,这表明人们对可靠、可信和客观的信息有着巨大的需求,所以她认为看到这种差距(需求和满意度之间)并支持这种数据可视化工具走向公众是非常重要的。

      约翰·霍普金斯大学是美国的一所研究型大学。它也是连续33年科研支出最高的大学。其公共卫生学院多年来一直位居美国第一。

      美国对外关系委员会全球健康高级研究员黄表示,美国拥有丰富的信息渠道,包括疾病预防控制中心和州公共卫生部门的官方数据,以及来自非政府组织、大学和媒体的最新数据。如此多样化的数据渠道使得疫情更加透明。约翰·霍普金斯大学的数据地图就是一个很好的例子。

      前复旦大学公共卫生学院院长、中国预防医学协会肺炎防控专家组成员江在接受《中国新闻周刊》采访时表示,在疫情发生时,任何数据都应公开透明,确保真实性。否则,流行病学家和数学家无法做出判断,也无法为决策提供可靠的指导。

      霍普金斯团队的高质量数据已成为许多研究团队开展学术研究的基础,也是科学界了解新皇冠流行病的重要信息来源。董恩生说,他们每天都在固定的时间发布准确的数据,这一点全世界的学者都可以看到。这有助于学者基于时间序列进行流行病学分析,而时间序列分析在流行病学,尤其是疾病预测中起着非常关键的作用。

      现在,这个数据地图的自动化程度越来越高,学校也提供了大量的技术和人力支持。接下来,董恩生希望与他的导师合作,利用这些数据来研究哪些地方更容易受到新的冠状病毒攻击,以及疫情何时会好转。

      资料来源:中国新闻周刊

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3896.html

          热门文章

          文章分类