微软:开放开源将成为后疫情时代人类社会的重大策略

当下,虽然全世界正处于新冠肺炎疫情的爆发期,但关于疫情之后人类社会何去何从的讨论已经开始出现。不少专家和学者认为,新冠肺炎疫情将给人类社会带来不可逆转的改变,虽然大家仍在讨论这些改变具体都体现在哪些方面,但一个可能的永久性改变就是全球合作和协作的方式:在本次全球新冠肺炎疫情中,全球的专家和学者们都纷纷通过开放开源平台展开合作,以加快应对新冠肺炎疫情的速度。

截止 2020 年 3 月底,根据 GitHub 开发者关系总监 Martin Woodward 的一篇博客1,在开放开源协作平台 GitHub 上已经观察到超过 6000 余位贡献者参与和支持了超过 3000 多个 COVID-19 响应的免费及开源项目,这些项目已经被超过 14 万独立用户浏览超过 200 万次。中国、法国、德国、印度、意大利、日本、美国、韩国、英国等国家和地区的开发者、专家和学者,积极参与了 GitHub 上新型冠状病毒肺炎疫情图、数据集、API、分析、应用开发等开源项目。可以说,当各国还处于各自物理隔离状态时,人类已经在开源世界里团结一致。

作为全球最大的开放开源软件支持者之一,微软也积极参与了开源世界联合应对新冠肺炎疫情的努力,包括:开放 COVID-19 科研文章数据集、基于 Azure Maps 的 COVID-19 疫情图开源代码、向 GitHub 上的 COVID-19 项目捐赠计算小时等。毫无疑问,一场新冠肺炎疫情将永久性改变人类社会的协作方式:如果显性的表现是普通大众在线沟通、工作与生活,那么隐性的表现就是全球技术精英们通过开源平台与社区的协作。

通过开放开源平台展开全球科研协作

本次新冠肺炎疫情倒逼了全球科学界和产业界的新协作方式,微软、Amazon、Facebook、约翰斯·霍普金斯大学等多家医学界和技术界公司和组织都在开放开源平台上迅速协作,把新冠肺炎疫情相关的研究、代码、数据、云服务等推向全球社会。

在所有 COVID-19 开源项目中,来自约翰斯·霍普金斯大学的开放 COVID-19 数据集是最受瞩目的项目之一。该大学被全球的流行病学专家、媒体以及统计工作者等视为 COVID-19 疫情爆发中的权威数据来源。该数据集也被用于一个交互式可视化面板,实时追踪 COVID-19 确诊病例。约翰斯·霍普金斯大学的系统科学与工程中心开发了这个用户友好的可视化面板,以供全球的研究学者、公共健康管理部门以及大众了解和追踪全球疫情的进展。

微软 Azure Maps 团队在 GitHub 上建立了一个基于 Azure Maps 的自由面板项目2,让健康医疗机构以及其它用户能够复用微软提供的代码以建立适合自己的可视化面板,可选择不同的公共数据集以了解本地医院、床位数量、联系人等信息。该项目可为任何特定地理区域进行定制,同时还可增强本地数据与信息,以获得地理空间相关洞察。该自由面板与约翰斯·霍普金斯大学的开源 COVID-19 面板相连,让用户能够获得全球疫情进展的时空数据。

除了数据集外,关于 COVID-19 的流行病学研究以及寻找疫苗或治疗药物的科学工作也在开源平台上进行。Folding@home 是 GitHub 上一个分布式计算项目,该项目使用志愿者的个人电脑进行计算药物设计等研究工作。该项目启动了一个专注于 COVID-19 的方向,致力于寻找潜在可用于药物治疗的蛋白质靶点。GitHub 已经向该项目捐赠了 6 万计算小时/每日,以帮助更快找到 COVID-19 的治疗药物或方法。

微软研究院、艾伦人工智能研究所、美国国家卫生研究院(NIH)的国家医学图书馆、白宫科学技术办公室(OSTP)以及其它机构合作了 COVID-19 开放研究数据集并向公众开放3。截止2020 年4月初,该数据集已经收录了超过了 47,000 篇 COVID-19 学术论文。基于这一数据集,Kaggle举办了“COVID-19 开放研究数据集挑战赛”,以激励全球的AI开发者从这些研究论文中挖掘 COVID-19 相关的洞察。

Martin Woodward 表示,在 GitHub上与 COVID-19 相关的项目和贡献者与日俱增。这从一个侧面说明了全球技术精英们,正在类似 GitHub 这样的开放开源平台上跨界合作,用开放开源技术展开快速协作,共同克服类似 COVID-19 这样全人类的共同挑战。

开放开源已经嵌入全球人工智能合作

在本次新冠肺炎疫情之前,开放开源平台就已经在全球重大合作课题上发挥了重要作用,最显著的成果之一就是人工智能。微软、Amazon、Google 等人工智能公司和技术厂商已经推出了各种开源的人工智能软件、代码、数据、API 等。过去一年间,GitHub 上最火热的项目就是人工智能和机器学习。

在过去的 2019 年,Python 成为仅次于 JavaScript 的第二大最受欢迎开发语言4。根据 GitHub 2019 年度报告,在 2015 年到 2018 年,Python 都排在 Java 之后名列第三大最受欢迎开发语言,而 2019 年则终于上升到第二的位置。众所周知,Python 是当下最火的机器学习编程语言。因此,在 Python 之后,数据科学也成为了 GitHub 上最火的领域之一。

此前,GitHub 被视为软件开发者之家,但随着全球代码的演进,基于 Python 的数据科学软件包也开始在 GitHub 上聚集。这些基于 Python 的数据科学开源软件,不仅降低了数据科学工作者的门槛,也让数据科学对商业和科研同等重要。而随着数据科学开源社区在 GitHub 上的聚集,越来越多 GitHub 软件仓库出现了“深度学习”、“自然语言处理”、“机器学习”等主题。

而在这些现象背后,是全球人工智能开发者之间更深层的互连协作。根据 GitHub 2019 年度报告,过去一年在 GitHub 上共创建了 4400 万个代码仓库,从将机器学习用于药物研发到深度学习学术论文再到各种类型的机器人,GitHub 上如雨后春笋般涌现了许多 AI 方面激动人心的开源项目。而 GitHub 上每个代码仓库的依赖包高达 200 个,每个开源项目背后都是数百个其它开源项目所提供的支撑。换句话说,全球人工智能与软件界已经在开放开源平台深刻互联,这已经是无法改变的事实。

在人工智能的开放开源领域,微软是最坚定的支持者与参与者之一。早在 2015 年,微软就开源了著名的 CNTK 微软认知计算工具软件包5,CNTK 允许开发者轻松实现和结合 feed forward-DNN、CNN、RNN、LSTM 等流行的深度学习框架,并可在多 GPU 和服务器之间实现大规模分布式并行计算。微软期望通过 CNTK 这样的开源人工智能软件和开源工作模式,加速全球创新创意的流动、分享与共享。

全球企业拥抱开放开源的新时代

从人工智能全球大协作到本次新冠肺炎疫情的加速协作创新,开放开源模式在全球商业和社会中的作用越来越显著。软件吞噬世界、开源吞噬软件,这已经是全球技术界的共识,也正在企业家中得到广泛认同。

GitHub 全球销售 SVP Erica Anderson 在 2019 年 9 月发表文章称6,全球越来越多的企业正在 GitHub 上投资开源软件以加速大规模的创新。对比 Red Hat 的 2019 和 2020 全球企业开源软件状况调研结果7,8,认为开源软件“非常重要”和“极端重要”的企业从 2019 年 69%上升到 2020 年的 75%,计划在未来增加使用开源软件的企业从 2019 年的 59%猛升至 2020 年的 77%。而无论是企业级商用开源软件还是开源社区版开源软件,都将在未来两年处于上升态势。

Erica Anderson总结了全球企业和组织加速投资开源软件的五大原因:首先是加速开发。没有一个企业组织的开发能力可以媲美整个开源社区,开源项目的维护者和贡献者可以跨国界、时区、语言等进行不间断协作。通过与开源社区互动,企业组织可以立刻就把全球软件社区纳入自己的开发队伍。

其次是更安全的代码。这虽然有些违反直觉,但实际上更多人参与,反而让代码的安全度更高。这也就是说,有更多双眼睛扫描和盯住代码中的潜在bug,可以在代码正式发布前就提前消除隐患。GitHub 还提供了诸如 Maintainer Security Advisory、Security Vulnerability Alerts 等软件开发安全工具,让外部开发者和内部开发团队都能够向企业级开源项目报告潜在安全漏洞和隐患。

第三是改善人才招聘与留存。一方面,开源社区为开源软件提供了源源不断的开发者和程序员;另一方面,如果企业在开源社区有影响力,那么就有助于吸引和留存高级软件人才。不少企业内的开发者和工程师,都乐意付出额外时间维护GitHub上的个人成就,以获得企业内部和开源社区的认可。

第四是获得更好的开发工具。根据 Synopsys 统计9,99%新开发的应用软件都包含有开源代码,很多企业和组织其实早就已经在使用开源工具和在其代码库中采用开源代码。虽然在这些企业中有些是在被动的使用开源工具或代码,如果这些企业改变策略,主动参与开源社区的话,就能带来更为显著的影响力:影响开源项目的走向,以更适应公司基础设施;为所有开发团队提供更好的开发环境。

第五是更高的开发者生产力以及更低成本。开源代码已经成为今天软件的基础构成部分,开发者往往可以通过简单免费的搜索就获得高质量的可复用代码。与其不断“重复发明新的轮子”,开源让企业可以更专注于自身独有的知识产权和产品差异化方向上,这就意味着更短的产品上市时间以及更低的成本。

在过去的一年,全球开源社区热情高涨。在 GitHub 上的 4400 万开发者中,有超过 80%来自美国以外的地区;上千万的开发者在去年才刚刚加入 GitHub;2019 年创建了自己第一个 GitHub 代码仓库的开发者比 2018 年多了 44%;130 万人在去年首次在开源社区做出贡献;GitHub 上有约 300 万企业账户,代表了全球企业、非营利性组织、各种开源项目等的集合努力;GitHub Enterprise Cloud 的用户来自超过 70 个国家,其中全球财富 50 强的的 35 家已经在去年向开源社区做出贡献。

总结:后疫情时代的人类社会,开放开源将成为新的重大合作策略。这是因为在充满不确定性的社会经济环境中,开放开源才是最高效的应对不确定的方式。基于开放开源的共享创新方式,将带来后疫情时代人类社会的新繁荣。

首届微软在线技术峰会将于 4 月 17-4 月 18 日举办,GitHub 全球产品技术生态总经理 Michael Francisco 将进行主题演讲,同时微软的专家也会带来关于开源的分享,点击活动官网或扫描下方图片二维码即刻报名:https://chinaevent.microsoft.com/virtualsummit/zh-cn/index?channel_id=100088

Microsoft Online Tech Forum

参考文献:

  1. Open collaboration on COVID-19,https://github.blog/2020-03-23-open-collaboration-on-covid-19/
  2. Azure Maps Covid-19 Open Source Project for Healthcare Agencies,https://techcommunity.microsoft.com/t5/azure-maps/azure-maps-covid-19-open-source-project-for-healthcare-agencies/m-p/1230024#
  3. COVID-19 Open Research Dataset (CORD-19),https://pages.semanticscholar.org/coronavirus-research
  4. GitHub:The State of the Octoverse 2019,https://github.blog/2019-11-06-the-state-of-the-octoverse-2019/
  5. CNTK,https://github.com/microsoft/CNTK
  6. Five reasons why organizations should invest in open source,https://www.linkedin.com/pulse/five-reasons-why-organizations-should-invest-open-source-anderson/
  7. The State of Enterprise Open Source 2020,https://www.redhat.com/cms/managed-files/rh-enterprise-open-source-report-detail-f21756-202002-en.pdf
  8. The State of Enterprise Open Source 2019,https://www.redhat.com/en/blog/survey-says-enterprise-open-source-inventing-future-software

Synopsys: 2019 OPEN SOURCE SECURITY AND RISK ANALYSIS,https://www.synopsys.com/content/dam/synopsys/sig-assets/reports/rep-ossra-19.pdf

相关文章