开放数据:概念、现状与机遇

注:本文之修订版本刊载于《大数据》期刊 2015年第2期,谢绝一切转载

今时今日,我们正身处一个”数据革命”(Data Revolution)的时代,见证着科技和数据结合如何改善我们生活质量,提升政府治理能力,刺激商业发展,并催化社会创新。而在这一“数据革命”的过程中,数据的自由流通无疑是最为关键的一环,数据孤岛必须得以打破。

开放数据(Open Data)运动正是在这样一个时代背景下所诞生的,这项运动致力于将原本开源世界(Open Source)的开放理念移植到数据孤岛问题中,提倡并号召解锁政府、企业、非营利机构、甚至特定的个人数据。而在现阶段,开放数据更多意味着开放政府数据,其最主要的目标正是世界上最大的数据孤岛——一座由政府数据构成的封闭岛屿。因此本文中将主要从开放政府数据的角度来谈论开放数据目前的发展现状和机遇。

开放数据是什么

要理解开放数据,我们不妨先来了解一下开放究竟意味着什么?根据英国开放知识基金会(Open Knowledge)的定义,开放(Openness)意味着三项基本元素:
1)非歧视性:数据若开放,则其对任何人都开放
2)机器可读性:数据若开放,则其应提供在机器可读格式下(例如,对于表格数据,应该采用CSV而非PDF)
3)开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、拷贝、传播的权利

基于上述定义,不难看出,开放数据相较于数据共享而言,其更秉承着开源世界所倡导的平等、自由的价值观。开放数据所强调的非歧视性和开放授权性,打破了传统数据共享中所设定的“共享条件”和“特定共享方”的限制。

而相对于政府本就一直推行的信息公开而言,开放数据所强调的机器可读性以及其明确赋予数据使用者的自由加值利用(包括商业使用和非商业使用)和分享传播权利则更好地刺激了公众对政府数据资源的需求,并鼓励公众对政府数据加值利用。

透明化:开放数据的原动力

开放数据有别于信息公开,更有别于数据共享,也因此它所要求的非歧视性、机器可读性、开放授权性对于数据提供者都提出了更高的要求。而这也意味着数据提供者需要背负更高的成本来确保数据开放在正确的格式与协议之下,并且承担可能的直接经济收益的损失(即损失了原本通过数据交易可得的利益)。在这样的情况下,如何去推动政府中的各数据提供者开放数据呢?

如果我们将开放数据运动比作一场马拉松的话,那么开放数据运动的前半程则完全由政府透明化在推动。事实上,最早开启开放数据运动的美国就是以2009年奥巴马签署的《开放政府指令》(Open Government Directive)为基础,朝着让政府更透明、让民众更好监督政府运作的方向在推进开放数据的发展。而在这个过程中,政府预算、政府支出、政府选举三项数据是开放政府数据计划中的重点对象,也因此,美国奥巴马政府在2014年进一步推动了《数据法令》(Data Act)的通过,从而加强政府预算和支出数据的开放。

美国自然不是唯一通过开放数据实现政府透明的国家,根据开放政府伙伴计划(Open Government Partnership)的记录,目前全球共有超过60个国家加入了伙伴计划,而作为伙伴计划成员其中一需要承诺的便是开放政府数据,从而通过数据开放实现政府的透明化,帮助民众问责政府。

公众对政府透明化的诉求,在欧美民主体制下变成了一股政府无法忽视的力量。这股力量对于政府数据的开放即是压力也是动力,从压力的角度来说,民选政府有义务推进政府透明化的进程,而在数据时代,自然必须要通过数据开放去加强透明化;而从动力角度来说,迎合公众对政府透明化的需求,率先开展政府数据开放从而使民众得以自由了解并监督政府,则可以为主要的行政长官赢得政绩,更可能赢得未来民众的选票。因此在这样的前提下,前文所提到的阻碍,无论是清洗并转化数据格式的成本,或是无法再交易数据的损失,都将因为开放数据所带来的政治资本收益而得以突破。

商业潜能,开放数据的加速剂

然而,仅凭透明化所带来的动力并不能推动开放数据运动走向终点。随着民众对政府数据的需求日益增长,开放数据的倡导者和实践者们不得不开始正视随之而来的巨大成本压力。而另一方面,透明化的主题并非企业和创业者所感兴趣的,若要进一步吸引这一群体参与推进开放数据运动,创建起正向循环的数据开放生态,那么就必须探索开放数据的商业潜能。也因此开放数据的倡导者和实践者逐步开始研究并宣传开放数据的经济价值,希望借此吸引商业人士的注意和参与。

2013年,国际知名的咨询公司麦肯锡发布了名为《Open Data: Unlocking innovation and performance with liquid information》的研究报告,它指出全球每年因开放数据释放的经济价值可以达到3万亿美金,这其中不仅包含了因开放数据创造的新财富,也包含了因开放数据可以节省的开支。

而在2014年,知名慈善创投基金 Omidyar Network 聘请澳大利亚咨询公司 Lateral Economics 就开放数据经济潜能进行研究,其发布的报告《Open for Buisness: How Open Data Can Help Achieve the G20 Growth Target》指出,综合 G20 各国的经济,开放数据将在未来五年中实现总额为 13万亿美金的增长。因此,开放数据将能在未来5年中为 G20 国家贡献大约 1.1个百分点的 GDP 增长,这将占到 G20未来5年GDP增长目标(2%)的55%。

无论是麦肯锡报告所提到的3万亿美金,又或是Lateral Economics提到的13万亿美金的增长,都预示着开放数据所能带来的巨大经济价值。而经济价值的实现一方面来自于市场因数据开放透明而节省的成本开支,另一方面也来自于开放数据所激活的新兴创新市场。如果套用当下“互联网+”的提法,开放数据所激活的新兴创新市场实际就是在做“开放数据+”的工作,通过结合开放数据,一些传统的行业得到改变,而另一些创新的应用服务也成为可能。

开放数据驱动的企业

在今年初,英国开放数据研究院(Open Data Institute,后文简称ODI)针对英国企业使用开放数据的情况进行了调研。在他们调研的270家企业中,虽然70%属于小微企业(10人以下公司),但大型企业(占8%,250人以上公司)也不乏使用开放数据的案例。而另一方面,虽然如前文所述开放数据开辟了大量新的创新领域,促使大量创业公司得以诞生,但ODI也发现,一些已经建立10年以上的企业(39%)也加入了开放数据的利用之中。

尽管目前使用开放数据来创建服务的企业都相对很小,但其中也有一些已经成长飞快,成为有显著经济价值的企业,比如:

Zillow,作为一家市值 30 亿美金的公司,它创建了一个在线房产交易平台供房屋产权人、购买者、售卖者、租赁者、中介、出租者、贷款经纪,、房产经理等发现并分享房产及周边相关(例如贷款)信息。整个平台由一个记录了超过 1.1 亿美国房产的数据库在驱动,这个数据库中既有挂牌出售的房产也有未挂牌的房产信息。Zillow将美国政府开放的土地交易记录、房屋交易记录、房屋整修记录、治安状况等有关社区状况的开放数据整合进原有平台,建立更为合理的房屋估值模型。

Climate Corp,于2013年10月被 Monsanto 以9亿3千万美金收购。 它利用美国政府免费开放的60年农作物收成数据,美国超过1百万个 气象监测站的气象数据以及14TB 的土壤质量数据为农民提供农业种植和金融决策辅助信息。它的一款主打产品是“全气候保险”,这款保险 产品将在系统预测有恶劣天气时自动赔付农民的损失而不需要农民举证 实际损失。Climate Corp 是2006 由两名前 Google 员工创建的,它每天要利用从22个数据集中经过高级数据分析产出的3百万数据资料。 这些数据来自不同的第三方机构,比如美国气象局,并且这些数据都是免费自由重复使用的。

开放数据的商业模式

上述开放数据的企业案例也使得开放数据的倡导者得以洞察几类常见的商业模式,在世界银行高级开放数据顾问 Andrew Stott 所写的《Open Data For Economic Growth》报告中,商业模式被归纳为 5 类:

供应者(Supplier)
此类指的是发布开放数据供第三方使用和重利用的企业和机构。这里不单单包括公共部门也包括私营企业,比如英国铁路运营公司(英国铁路为私人运 营)。发布数据本身并不能获利,但发布数据却可能升用户忠诚度和参与度,从而间接获利。同时,供应者也可能通过自己对数据理解的优势来开发加值 服务进而获利:比如德国统计局在 08 年 10 月开始开放其数据,而此开放数 据项目帮助它的附加服务和咨询服务的营业额在两年内增长了 95%。一些数据供应商,比如英国气象局,则采用双轨模式:一个免费版本,公众可以免费使用相应数据但只能得到有限的技术支持;一个收费版本,将相同数据授权在相同协议下,但提供有保障的技术支持。

聚合者(Aggregator)
此类指的是搜集并聚合开放数据,有时也包括封闭数据,的企业和机构。通 常这都是面向一个特定垂直领域或地域的。比如,Data Publica 就是一个法国一站式数据门户。Placr/Transport API 就致力于打造英国第一个交通领域 开放平台。Open Corporates 则聚合了全球 81 个国家的企业注册数据,目前共记录了 66,665,508 家企业数据。相应的商业模式有对聚合数据本身收费, 提供额外的增值服务比如 API,以及分级收费模式(比如数据提供在“以相同方式”授权模式下要求第三方整合数据后必须以相同开放授权开放新数据,若遵从则数据免费,如果需要无限制的授权则需要付费。)

开发者(Developer)
此类指的是设计、开发并售卖 web 应用或移动应用的企业或个人开发者。这 些应用将开放政府数据通过吸引人的方式表现给终端用户以供方便使用。在 纽约,单单地铁应用就有超过 68 个,而在伦敦,更有约 500 个公共交通应用使用开放数据。

增值者(Enricher)
此类指的是通过分析开放数据获取进一步洞见后再整合进相应面向终端消费者的服务或产品的企业或机构,通常这些服务和产品都是依靠开放数据而全 新诞生的。前文提到的 Climate Corp 正是属于此类商业模式。同样美国的 Zillow 和英国的 Zoopla 也属于此类。增值者可能属于所有商业模式中附加 价值最高的一种,同时也是更容易在市场估值中得到认同的一类。

赋能者(Enabler)
此类指的是提供平台和技术来供第三方企业和个人使用的企业和机构。他们 是开放数据生态的重要组成部分,在确保盈利的同时,他们向数据供应者和消费者提供高性价比、易于访问的服务。典型的例子有 Socrata,一个面向政府提供软件即服务的开放数据门户解决方案的公司,以及类似的法国竞争者 OpenDataSoft,以及 Musigma 和 Cloudera 这种提供数据分析服务和 平台的公司。

孵化开放数据驱动的企业

为了鼓励不同类型、大小的企业、初创公司、个人能够利用开放数据进行创新,并找到合适的商业模式来持续化自身的产品和服务,一批专注于开放数据的孵化器正在诞生。

上文中所提到的英国开放数据研究院(ODI)便是此类孵化器的先驱之一。ODI作为一家由万维网之父蒂姆·伯纳斯-李所创办的非营利机构,得到了英国政府1千万英镑的投资,不但针对开放数据本身进行研究、培训和咨询,也提供创业企业孵化的服务。ODI在孵化过程中并不提供资金,但借助其创始人和执行团队与英国政府、学界、非营利机构之间的强大人脉网络,其能够帮助入驻孵化的创业企业解决最为核心的开放数据供给与质量问题,并提供合适的媒体、会议等宣传平台帮助这些创业企业曝光在大众的视野中,从而让他们更好地成长。

如今,ODI作为孵化器已经成功孵化了11家创业企业,其中包含了整合并开放企业注册数据的OpenCorportates,以及整合并提供交通数据API的Placr。而在新一轮孵化项目中,12家新兴创业企业入驻ODI,这当中就包含了明星企业Spend Network,它的主要业务是整合并分析英国政府财政支出和采购数据,而之前让其获得瞩目的一个项目便是揭露出低效政府采购系统导致了2百亿英镑现金流的滞缓。同时,ODI这一轮的企业中也不乏从英国开放数据竞赛(Open Data Challenge)中脱颖而出的获奖团队,比如基于食品数据提供服务的FoodTrade,和专注于解决社会住房问题的RentSquare。

而受到ODI孵化开放数据企业的启发,欧盟在2015年也启动了面向整个欧盟的开放数据孵化器(opendataincubator.eu,简称ODINE)。ODINE项目由英国南安普敦大学协同ODI在内的共7家机构组成联盟共同组织运营,其从欧盟2020战略基金中获得了1440万欧元的资金,用于在30个月内投资开放数据驱动的创业企业。每家通过申请的创业企业都将获得最多10万欧元的投资(不占股权),以及配套的培训、媒体宣传、专家指导、风投对接等服务。

开放数据在中国的现状

从2009到2015,在这10年不到的光景中,开放数据的发展从依靠透明化为单纯动力演变到了如今透明化和商业潜能双驱动的模式,而其也不再仅仅是欧美发达国家所能开展的计划,无论是非洲的肯尼亚,拉美的墨西哥,还是亚洲的菲律宾,都是发展中国家中开放数据发展的佼佼者,可以说,开放数据其已成为各国政府在这个数据革命时代不得不为之事。

而面对开放数据如此高速的发展,以及其所能带来的经济和社会价值,中国又是否做好足够准备去拥抱这一变革呢?中国开放数据发展的现状又是如何呢?

在当前,开放数据在中国的发展整体自然要落后于欧美各国。在国家层面上,中央还未正式出台任何开放数据政策,也未有上线国家级的开放数据门户,但近两年中,中央在开放数据上的声音也的确越来越强。比如说,在今年两会期间,李克强总理在回应山东代表团有关开放数据相关提议时就说道:“政府掌握的数据要公开,除依法涉密的之外,数据要尽最大可能地公开,以便于云计算企业为社会服务,也为政府决策、监管服务。”而在今年5月末召开的贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会上,中共中央政治局委员、国务院副总理马凯也强调要“共促数据开放,让大数据惠及更多民众”、“要加快建立政府开放数据门户,优先开放高价值数据,鼓励基於开放数据开展应用创新,让大数据惠及更多民众,要制定鼓励政策,引导更多非公共数据向社会开放。”这些来自中央高层的支持无疑代表了中央政府推进开放政府数据的巨大决心。

有意思的是,虽然开放数据尚未在中央层面全面开展,一些市政府乃至区政府早已开始了开放数据的实验。上海市在2012年6月就上线了中国第一个开放数据门户“上海市政府数据服务网”,而在之后几年中,北京、佛山南海、武汉等也陆续推出了自己的开放数据门户网站。可以说当欧美各国正在思考如何从中央走向地方发展开放数据的时候,中国开放数据的发展却从一开始就深入地方开始了发展。

在近期,由笔者和复旦大学数字和移动政务实验室合作的《中国开放政府数据平台研究:框架、现状与建议》研究针对北京、上海、武汉、无锡、湛江、海曙、南海7个地方开展了全面系统地开放政府数据项目评估。评估发现,目前中国地方政府开放数据的发展已经从特大型城市(北京、上海)扩展到不同地域、不同规模的地方,但仍旧相对集中于沿海(江)城市(区),基本都为国家或省市内的一线地区,经济通常较为发达,政府信息化基础相对较好,IT产业发展具备一定潜力。

整体而言,各地方开放政府数据项目仍处于初级探索阶段,截至2015年5月20日,上述7个地方共发布了1946个数据集。其中发布数据最多的是武汉(635),发布数据最少的则是湛江(29),平均每个地方发布278个数据集。若进一步考察各地方所发布数据中符合可机读要求的比例,则当前平均可机读率为84.1%,其中北京和海曙两地可机读比例最高(100%),武汉则最低(54%)。而从可机读总数量角度来说,当前上海则以398个可机读数据集位列全国第一。

数据的开放授权性也是需要重点考察的一项内容,从研究结果来看,目前各地方数据授权条款符合开放授权的比例为0%,其中能够确保数据永久免费性的为28.5%(2个地方),明确保障自由加值利用权利的比例为0% ,明确保障自由分享传播权利的比例为0%(其中57%,即4个地方的条款限制自由分享传播)。而从目前数据的时效性来看,各地方平均86.25%的数据为静态数据(以年为单位更新或按需更新),而即使如此,数据按承诺频率更新的比例也仅达到17.21%。

基于上述现状可知,当前各地方对于开放数据概念及其原则尚未能充分理解,在实际工作中仍旧延续了信息公开的旧思路和实践方法。实际上,这些问题相当程度上可归咎于开放数据政策的缺位。在研究调研的7个地方中,除上海以外,未有一个地方发布针对开放数据的政策,但即使在上海,其所发布的《关于推进政府信息资源向社会开放利用工作的实施意见》也未明确开放数据的含义与原则 ,建立起地方范围内对开放数据的统一认知。而这就造成了实际操作过程中,各部门可能基于对开放数据的不同理解而造成数据开放性差、数据多静态、数据更新率低的问题。

中国开放数据生态发展的挑战

开放数据的发展,离不开生态的发展,离不开每一个利益相关者——政府、企业、媒体、NGO、乃至普通市民——的参与和贡献,而在目前,中国开放数据生态的发展还未有系统性地开展。

在今年初,笔者针对当前中国社会各界了解开放数据的程度进行了一次小规模的问卷调研。参与问卷的人群主要来自北京、武汉、上海三地,工作在政府、高校、规划院、NGO等。在收到的近200份答复中,80%的人认为信息公开(数据公开)就等同于数据开放。从这一点来说,实际上对于社会大众而言,现阶段的主要焦点还是在于是否能够访问到政府的数据,而不是在关心这样的数据是否能够易用(可机读),是否可以自由使用(开放授权性)。这一方面是因为长久以来政府数据对于社会大众而言过于封闭,所以大众在现阶段自然最关心是不是政府数据能够不那么封闭。而另一方面来说,也说明开放数据作为一个新兴概念尚未在社会普及。

而对于现有的开放数据门户们,社会大众是否了解他们的存在呢?问卷调研的结果显示,50%的人群从未听说过任何一个开放数据门户,但其中最早的开放数据门户(上海)早在2012年中就已上线。这也暴露出目前政府在运作开放数据项目时对社会大众的推广宣传的力度不足,不但开放数据这一概念尚未能够很好得到普及,连作为项目核心用于提供数据资源的开放数据门户也未能得到足够的推广宣传,吸引社会大众的使用。

同时,社会各界目前也缺乏有效的参与路径来和政府共同协作推进开放数据的进程。虽然各地方的开放数据门户均提供了数据请求的功能允许大众提交数据的需求,从而推动数据释放,但是各地方所提供的数据请求功能均是基于单向通讯的,即其是一个基本的问卷由大众提交给政府,但大众之间无法基于一个数据请求进行进一步的研讨,也无法了解政府的回复,并不利于各方去了解数据请求的进展,头脑风暴出可能的数据应用。

另一方面,北京、上海两地虽然在2014年均举办了开放数据的创意大赛,面向社会征集应用政府所开放数据的创意,但两地的大赛均未能成功释放参赛者所需要的数据,从而帮助参赛者进一步落地想法。值得喝彩的一点是,上海市政府在今年8月即将启动全新的上海开放数据应用创新大赛(简称SODA,微信公众号为SODAChallenge),这次大赛将聚焦交通出行,并开放一批政府数据,同时共享一批来自政府和事业单位的数据(今后可能考虑全面开放这部分数据),从而激励社会大众基于这些数据分析出现下交通系统的问题并提出新的改良建议,或者基于数据直接去创建全新的交通应用或服务,并将其转化为可持续的商业产品,落地孵化。

开放数据中国,生态建设的尝试者

事实上,在欧美国家,开放数据的生态绝非单靠政府来搭建。前文所述的英国开放数据研究院便是为了催化开放数据文化,搭建开放数据生态而创建的,同时英国的开放知识基金会也扮演者重要的生态搭建者角色,而在美国,诸如“为美国而编程”(Code for America)、阳光基金会(Sunlight Foundation)等非营利机构也在生态搭建中起到了积极的居中协调统筹的作用。那么在中国,从民间社区角度、非营利机构角度是否可以尝试去推进生态的建设呢?

答案是肯定的,在2014年2月,笔者所在的开放知识基金会中国小组便联合了上海青悦(环保NGO)、城市数据派(数据+规划的垂直社区)、数据科学家联盟(大数据垂直社区)等7个社群和社群代表共同发起了开放数据中国(opendatachina.com)。

开放数据中国的使命在于催化并支持中国开放数据的生态建设,其试图在开放数据运动最弱小之时就开始吸引不同群体的参与和关注,通过建立起一个虚拟网络来连接这些人、机构、项目,从而使得网络内成员可以有一个共同平台互相学习、支持、协作。这些星星之火通过开放数据中国凝聚在一起,从而能够推动开放数据在中国的发展。而同时,网络成为协作的基础,帮助网络内的不同机构、个人寻找到合作伙伴,并通过开放数据中国维护的国际合作伙伴关系,为不同项目寻求资金、宣传、技术指导等支持,让中国的项目得以成长。而这一过程也帮助了国际社区进一步了解中国的开放数据进程。

开放数据中国还负责搭建共创平台,帮助数据发布者(政府等)、数据利用者(创变客等)、最终得益者(民众、创变客的服务对象)能够有一个共同的平台进行对话,了解各方的需求,从而优化协作。比如在2014年10月,开放数据中国便协同世界银行和复旦大学数字与移动治理实验室共同举办了第一届“开放数据在中国”研讨会,邀请了7个国内开放数据计划的代表、6位行业需求端代表、5位国际专家共同探讨开放数据生态建设。 而针对前文提到的大众对开放数据的不了解、政府操作中的一些问题,开放数据中国也为数据发布者和数据利用者提供咨询、研究和培训服务,帮助他们提升自身在这一领域的知识和技能,改善工作的流程,挖掘新的机遇。

尾声

开放数据运动还远未至终点,即使欧美先于中国完成了大量类似建立开放数据门户建设、政策和组织架构设立等的基础工作,但仍旧有诸如如何推进开放数据商业使用、如何制定全球通用的数据标准、如何衡量开放数据影响力这些问题亟待解决。中国虽然目前是落后于人,但值此中央大力推进“互联网+”、“万众创新、大众创业”的时刻,开放数据的发展势必将得以大力的推进,追赶并非是痴人说梦。

而最为关键的,可能正如开放数据创业中心(Center for Open Data Enterprise)创始人 Joel Gurin 所说的,“请即刻开放数据吧” (Open Data Now)。

top