共治共创视角下的开放数据发展:趋势、挑战和反思

开放数据发展至今,其已经从原始政府透明化推手的定位逐渐演变为激发社会创新和重塑经济结构的要素,而伴之成长的公民科技在近年来的迅猛发展,更是突出了数据开放作为社会共治共创基础机制的地位。因此,数据开放本身定位的演变、机制的进化和形式的转变都将会影响着社会各界共同参与并贡献于社会治理与创新的方式。本文将从共治共创的视角,反思开放数据发展的历程和趋势,讨论其中的挑战与机遇。

Read more

开放数据:概念、现状与机遇

注:本文之修订版本刊载于《大数据》期刊 2015年第2期,谢绝一切转载 今时今日,我们正身处一个”数据革命”(Data Revolution)的时代,见证着科技和数据结合如何改善我们生活质量,提升政府治理能力,刺激商业发展,并催化社会创新。而在这一“数据革命”的过程中,数据的自由流通无疑是最为关键的一环,数据孤岛必须得以打破。 开放数据(Open Data)运动正是在这样一个时代背景下所诞生的,这项运动致力于将原本开源世界(Open Source)的开放理念移植到数据孤岛问题中,提倡并号召解锁政府、企业、非营利机构、甚至特定的个人数据。而在现阶段,开放数据更多意味着开放政府数据,其最主要的目标正是世界上最大的数据孤岛——一座由政府数据构成的封闭岛屿。因此本文中将主要从开放政府数据的角度来谈论开放数据目前的发展现状和机遇。 开放数据是什么 要理解开放数据,我们不妨先来了解一下开放究竟意味着什么?根据英国开放知识基金会(Open Knowledge)的定义,开放(Openness)意味着三项基本元素: 1)非歧视性:数据若开放,则其对任何人都开放 2)机器可读性:数据若开放,则其应提供在机器可读格式下(例如,对于表格数据,应该采用CSV而非PDF) 3)开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、拷贝、传播的权利 基于上述定义,不难看出,开放数据相较于数据共享而言,其更秉承着开源世界所倡导的平等、自由的价值观。开放数据所强调的非歧视性和开放授权性,打破了传统数据共享中所设定的“共享条件”和“特定共享方”的限制。 而相对于政府本就一直推行的信息公开而言,开放数据所强调的机器可读性以及其明确赋予数据使用者的自由加值利用(包括商业使用和非商业使用)和分享传播权利则更好地刺激了公众对政府数据资源的需求,并鼓励公众对政府数据加值利用。 透明化:开放数据的原动力 开放数据有别于信息公开,更有别于数据共享,也因此它所要求的非歧视性、机器可读性、开放授权性对于数据提供者都提出了更高的要求。而这也意味着数据提供者需要背负更高的成本来确保数据开放在正确的格式与协议之下,并且承担可能的直接经济收益的损失(即损失了原本通过数据交易可得的利益)。在这样的情况下,如何去推动政府中的各数据提供者开放数据呢? 如果我们将开放数据运动比作一场马拉松的话,那么开放数据运动的前半程则完全由政府透明化在推动。事实上,最早开启开放数据运动的美国就是以2009年奥巴马签署的《开放政府指令》(Open Government Directive)为基础,朝着让政府更透明、让民众更好监督政府运作的方向在推进开放数据的发展。而在这个过程中,政府预算、政府支出、政府选举三项数据是开放政府数据计划中的重点对象,也因此,美国奥巴马政府在2014年进一步推动了《数据法令》(Data Act)的通过,从而加强政府预算和支出数据的开放。 美国自然不是唯一通过开放数据实现政府透明的国家,根据开放政府伙伴计划(Open Government Partnership)的记录,目前全球共有超过60个国家加入了伙伴计划,而作为伙伴计划成员其中一需要承诺的便是开放政府数据,从而通过数据开放实现政府的透明化,帮助民众问责政府。 公众对政府透明化的诉求,在欧美民主体制下变成了一股政府无法忽视的力量。这股力量对于政府数据的开放即是压力也是动力,从压力的角度来说,民选政府有义务推进政府透明化的进程,而在数据时代,自然必须要通过数据开放去加强透明化;而从动力角度来说,迎合公众对政府透明化的需求,率先开展政府数据开放从而使民众得以自由了解并监督政府,则可以为主要的行政长官赢得政绩,更可能赢得未来民众的选票。因此在这样的前提下,前文所提到的阻碍,无论是清洗并转化数据格式的成本,或是无法再交易数据的损失,都将因为开放数据所带来的政治资本收益而得以突破。 商业潜能,开放数据的加速剂 然而,仅凭透明化所带来的动力并不能推动开放数据运动走向终点。随着民众对政府数据的需求日益增长,开放数据的倡导者和实践者们不得不开始正视随之而来的巨大成本压力。而另一方面,透明化的主题并非企业和创业者所感兴趣的,若要进一步吸引这一群体参与推进开放数据运动,创建起正向循环的数据开放生态,那么就必须探索开放数据的商业潜能。也因此开放数据的倡导者和实践者逐步开始研究并宣传开放数据的经济价值,希望借此吸引商业人士的注意和参与。 2013年,国际知名的咨询公司麦肯锡发布了名为《Open Data: Unlocking innovation and performance with liquid information》的研究报告,它指出全球每年因开放数据释放的经济价值可以达到3万亿美金,这其中不仅包含了因开放数据创造的新财富,也包含了因开放数据可以节省的开支。 而在2014年,知名慈善创投基金 Omidyar Network 聘请澳大利亚咨询公司 Lateral Economics 就开放数据经济潜能进行研究,其发布的报告《Open for Buisness: How Open Data Can Help Achieve the G20 Growth Target》指出,综合 […]

Read more

对于开放环境数据的一些思考

授权信息 请第三方(非商业机构)转载时在转载内容前添加下列文字:「本文作者为高丰@开放数据中国,内容授权于知识共享协议 CC-BY-NC 国际4.0 (署名-非商用) 之下」,作者保留对不按授权要求转载的第三方追究责任的权利。 商业机构(包括通过流量、广告等方式运营的自媒体机构、传统媒体以及商业机构所开设的社交媒体等)请先通过邮件书面取得授权再行转载。 作者信息 高丰,英国南安普敦大学计算机博士,现为开放数据与社会创新独立咨询顾问,兼复旦大学数字与移动治理实验室特邀研究员。自2013年起,他担任英国开放知识(原英国开放知识基金会)大使,在中国大陆地区倡导、推广、支持开放数据运动,后于2014年2月联合发起开放数据中国(opendatachina.com),致力于打造中国开放数据生态圈。高丰先后作为受邀专家参与开放数据指数(open data index),开放数据晴雨表(open data barometer),英国城市级别开放数据普查等研究和咨询项目。他已和英国开放知识、开放数据合作伙伴计划、世界银行、瑞士Lift创新会议等在开放数据事务上开展过合作。你可通过fenggao@opendatachina.com 联系他。 前言 实际上针对这个题目,早在14年中,我尚在青悦参与一系列环境数据整理与开放的工作时,就已有了动笔的念头。而在14年末,受邀在芯世界创新中心所举办的「DIY My City」会议谈智慧城市和开放数据时,也曾从环境数据角度谈及了开放数据所能带来的智慧环保,但无奈之后要参与多项工作,一直未能找到机会系统地对这个话题进行整理。恰逢此次8月14日,上海青悦将在北京组织「环境数据开放与应用分享沙龙」,邀请了来自环保部政研中心、中国清洁空气联盟、南方周末、阿里巴巴公益基金等不同领域的利益相关者共同探讨环境数据开放,我才能找到时间静下心整理出了这篇文章,写下自己对该话题的一些思考,希望能对讨论有所助益。 何为开放数据 既然讨论的是环境数据开放,那么自然要先对开放数据予以解释,并将其和相近的「数据共享」与「信息(数据)公开」加以区别说明。 要理解开放数据,就先要了解「开放」究竟意味着什么?根据英国开放知识基金会(Open Knowledge Foundation) 的定义,开放(openness)需具备以下3项基本元素: 非歧视性:数据若开放,则其对任何人都开放。 机器可读性:数据若开放,则应是机器可读格式,例如对于表格数据,应该采用csv,而非pdf。 开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、拷贝、传播的权利。 由以上开放性的定义来说,我们可以比较一下开放数据和传统信息公开要求下的数据发布有何不同。例如,目前按照环保信息公开要求,各城市均公开发布了本地空气质量监控的数据,但对于除上海之外(其提供下载)的城市而言,这些数据的发布都是通过交互网页的形式提供给大众的,你并不能在页面上直接下载到某一时刻所有监控站点的监测数据,更无法下载到某一历史时间段上的监测数据。这样的情况下,数据虽然公开,但仅限于「看」,而无法真正去「用」(可以思考一下,要计算一年内平均pm2.5值,或者绘制出某一特定监测站一个月内pm2.5的变化,在无法下载数据的情况下,你能如何办到?)。 所以,开放数据中的「机器可读性」对数据释放的格式设定了标准,即一个数据开放的话,其一定被提供在一个可用也易用的数据格式下,通常我们说表格数据就采用CSV(Excel的XLS也可以),因为这种格式你能轻易使用文本编辑器或Excel打开从而进行必要地加工处理,而PDF或者网页在这种情况下就不满足条件,因为你无法对PDF或网页上的数据做便捷的数据加工。 另一方面,开放数据也强调数据的完整性,特别对于传感器采集的数据,开放数据应当是拥有完整历史记录的数据。如上述空气质量例子中,如果空气质量数据被发布为开放数据,则其历史数据都应当可以下载,两项情况下,用户可以选择一次性下载所有历史数据,或者选择下载指定时间段的数据。 而相对于数据的共享,数据开放的差异则集中体现在非歧视性和开放授权性两点。在数据共享情况下,我们说数据可能并非是所有人都可以访问到,而只限定某一特定群体(比如合作伙伴)才能访问,而数据开放则所有人没有差异化地都能访问到这些数据。而在授权上来说,数据共享通常会限定使用者在特定目的下使用数据并且不可以再传播给第三方。而开放数据则不同,一般开放数据习惯采用知识共享协议(CC协议),从而确保第三方在获取数据后可以自由、免费地使用、加工、复制、分发这些数据。 对开放环境数据的尝试 在开放环境数据上,英国 Digital Catapult 所建设的 Environment Data Exchange 致力于提供一个统一的数据平台,帮助NGO、政府、企业、公众一站式查找到所需的环境数据资源。目前该平台已经有英国环保部、世界银行、牛津洪涝网络等不同机构提供数据,数据集已达到300 多项。其中既包含了开放的数据,也包含了一部分共享数据。 而在印度,社会组织也不断在推进政府开放数据的日程,特别是推动政府去开放环境相关的数据。不同的NGO通过在Data.gov.in上提交数据需求,直接向政府主管部门申请,举办工作坊进行沟通等途径,已然促使印度政府开放了700余项环境数据。 美国 Data.gov 则专门针对气候变化开辟开放数据专题,NASA等一系列机构开放了大量卫星图片、传感器监测数据用于环境治理。而美国的另一项针对水环境的 Open Water Initiative 则野心更大,其期望将目前不同机构采集管理的零碎水环境数据完全整合进一个关联的国家水环境数据框架中,从而进一步开放水环境数据作为服务面向大众提供,激发大众对这一类数据加值利用的兴趣。计划中,它不单将整合描绘事实的水资源数据和水质数据,也将同时整合人们如何使用水资源的数据,比如多少农业用水回灌入河道,饮用水消耗量多大等等,从而为不同利益相关者提供完整的水环境数据全貌。 除了政府之外,环境数据也由不同的非政府组织在采集与开放。比如关注于亚马逊热带雨林的 InfoAmazonia 项目号召记者、NGO工作人员等将雨林相关的图片、数据、报道、音频等开放共享,从而能够作为不同的图层叠加到地图上形成一张高度交互、情境相关的亚马逊热带雨林地图,帮助不同人员了解雨林内正在发生的事情,了解哪些地方需要NGO的投入等等。 而在国内,由上海青悦牵头,也于2014年开始了开放环境数据计划。计划初始主要关注了两个方面的数据:一为空气质量数据,二为水质量数据。 就空气质量数据而言,本身已经由pm25.in完成了全国监控点的数据汇总并输出为API,但由于该平台所提供数据均为实时数据,缺乏对历史数据的积累,因此青悦所做工作便是基于其API进行历史数据的存储,从而构建一个自2014年起积累的历史空气质量数据库(air.epmap.org)。而对于水而言,初步工作主要聚焦于地表水监测数据(wat.epmap.org),通过爬取「国家水质自动站数据实时发布系统」的数据,从2014年起积累地表水监测点的水质数据。 另一方面,青悦开展的饮用水溯源计划则着重于通过数据还原家庭饮用水自上游水,到水源地,到取水口,到自来水厂,直到家中自来水管(二次供水)整条供水链上每一个环节的水质。该项目针对上海进行了数据采集的试点,尽可能采集了每一个环节的水资源及其水质的数据。而在这个过程中,青悦也注意到目前公部门在公开相应水环境数据的过程中尚有诸多不足,大量数据未得到公开,或者公开后更新不及时,或者不同部门公开的数据格式不同等。基于这一实际情况,青悦进一步建立了一套针对水环境数据公开的评估框架,先后针对上海、北京、深圳等地开展了政府和事业单位在公开发布相应水环境数据的情况(epmap.org/ngo/page/report)。 […]

Read more

利用信息公开日志指导数据开放

原文出自 Reinvent Albany, 译者高丰 执行摘要 如今,将公共记录和数据放到网上对于政府单位而言已经是一件成本低廉,操作简单的工作。纽约州和纽约市政府都已经通过自己的开放数据项目向社会开放了上千的数据集。但奇怪的是,政府机构仍旧对于到底要优先发布哪些数据感到困惑。而这正是他们可以咨询信息公开日志的地方。大众通过信息公开向政府提出大量信息和数据的申请,而这正是他们表达需求的方式,政府机构可以从中了解哪些信息是高价值数据从而进行开放。 在2014年6月,州环境保护局向 Reinvent Albany 提供了2013年所的信息公开日志数据共计3,977条记录。在这个日志文件里,包含了信息公开申请者基本信息以及信息公开的简要申请内容。 环境保护局2013年信息公开日志中的要点 l   80%的申请(3,456)来自商业机构 l   12家地产公司提出了20%的信息公开申请 l   大约55%(2,200)的申请是有关特定地产上所发生的化学品或危险品泄漏事故 l   其他州或市级机关向保护局提出了69项申请 l   记者提出的申请仅占到3%(73) 我们的发现 l   保护局可以通过主动发布频繁被申请的数据来减少50%的申请 l   部门保留的信息公开日志能够帮助明确哪些数据被频繁申请 l   很大比例的信息公开回复是基于个别几个数据集作出的 l   部门保留的信息公开日志能够帮助明确哪些是「常规信息公开申请者」 l   我们的分析得以完成完全是依赖环境保护局保留了完整的,电子化的信息公开日志。而很多部门并没有这么做。 l   「常规信息公开申请者」对于今后能够在开放数据门户上下载他们通常申请的数据感到很有兴趣 我们的建议 l   纽约州和纽约市的公共机构和负责开放数据事务的公职人员应当对信息公开日志进行分析 l   频繁被申请的公共数据信息应当被作为开放数据发布 l   公共机构应当采用自动化的信息公开管理系统来追踪申请者的申请内容主题   谁在向环境保护局提出信息公开申请 2013年,环境保护局共收到3,977项信息公开申请。在其中,3,456项申请有明确申请人所在单位信息。而剩余521项则无此信息,故假定为是独立个人作出的申请。 通过分析单位信息,我们发现大部分信息公开申请来自商业机构,例如咨询公司、地产公司、律师事务所等。在2013年,一批咨询公司和工程公司提出了大部分的信息公开申请,其中12家公司提出了全年20%的信息公开申请。 商业机构提出了80%的信息公开申请 向环境保护局提出申请的大部分都是商业机构,仅有5%的申请来自环保活动者或记者(73项申请)。就算我们假定所有独立个人所提出的申请,也可以算作是记者为了自我保护故意如此申请的,那么记者总共提出的也就594项申请,仅比商业机构中的律师事务所多了一点(556项)。 地产公司为了查找信息通常外包相关业务。咨询公司(consultants)和工程公司(2,563)提出了地产经纪(57)50倍的信息公开申请。 我们的分析结果表明,向环境保护局提出申请最多的是商业机构,而他们所要申请的内容往往集中在几个特定数据集上。 常规信息公开申请者所需的是特定几个数据集 Reinvent Albany 和两家地产公司进行了访谈,这两家公司在2013年共提出了300项申请。以下是我们从访谈中,以及后续对其他类型申请者所提出申请的分析所得到几点结论: 环境保护局2013年收到的申请中有2,200项是关于特定房产的 大部分这些申请都是有关于油罐仓储和泄漏事故的。这两家地产公司提出申请的原因是环境保护局提供的在线查询系统非常简陋,而且有大量限制,并且无法下载数据。 […]

Read more

光有开放数据是不够的

此处原文来自阳光基金会,原作者:Júlia Keserű,译者:高丰 作为阳光基金会对开放数据与政府透明化关系思考的一部分,我们已经写作和演讲了大量的内容来阐述为什么我们觉得开放数据自身不能直接达成我们所期待的政府透明化从而让我们对政府更好问责。在我们政策主管 Emily Shaw 近期的一篇文章中也指出,开放数据自身更多是一个工具而非一个结果,正如我们不会认为榔头本身是一个结果一样。 顺着这个比喻进一步思考,我认为正如钉子自己不会找来一个榔头敲自己一样,政府也不会自愿公开所有政治相关的、敏感的、有争议的信息。这也是为什么我们在信息公开中会有主动公开和依申请公开两种的原因。 最近,我也碰巧读了千年发展计划,其中有这么一句话「世界上的人们都过度期望他们的政府能够诚实、可信并且对他们的需求作出回应。」 然而,事实上我并非这么想。并且我永远都不会这么想。在我的祖国匈牙利——一个批评政府的NGO会被突击搜查,调查税收丑闻的媒体主编会被开除的国家——我个人从来没有期望我们的政府能够完全让人感到信任。当然,产生这一论断的一部分原因是因为我本身来自东欧,故对此有所怀疑。不过,更重要的一个原因是,我相信权力本身的动力和掌权者的动机都是天然与政府完全透明化相背道而驰的。换句话来说,即便政治家们个人可能是诚实的、对人民负责的,但这并不会改变一个事实,那就是,政治精英们永远想要操控信息的流动。 自从米歇尔·福柯发表了他对环形监狱的社会学研究结果之后,我们都明白了所谓的「知晓我们所掌控之物,掌控我们所知晓之事」的论点。政治权力永远都依赖于一个基本点:作为掌权者你要全面掌控你民众的一言一行,但同时要保证他们对你知之甚少。这也就是为什么当那些有能力动用最新科技来监视民众一言一行的政府,被质问为何不公开政府信息时,总会以他们没有足够能力来处理其中敏感信息作为推搪的理由。 基于以上,我强调任何一个国家在任何状况下想要达成完全的透明化,都同时需要信息公开和开放数据。 阳光基金会在过去已经写过很多文章说明在一个健全的透明化生态中需要各个不同的部分(比如信息公开,开放数据等)来扮演各自的角色。类似的,响应式的信息公开,例如传统的依申请公开,和主动的信息公开,比如开放数据都是同等重要的。其中前者确保了人们有固定的渠道去向政府部门申请相关的资料以及了解政府在做什么,而后者则确保了政府有义务主动将自己的信息和相关工作的情况,比如预算、政策等公开给大众。 换一句话来说,同时赋予人们索取特定信息的权利以及通过公开渠道获取由政府主动发布的信息的权利是同等重要的,两者是互相补充的。 然而,仍有大量来自不同背景的开放政府活动人士坚持认为两者是「或」的关系,仅需一者即可。 支持信息公开的人士指出,开放数据永远不能提供我们政府如何工作及花费我们税收的完整画面,因为政治天生就是讲究秘密的。根据他们的观察,一旦我们放弃依申请公开这条渠道,那么我们就会对政府选择发布何种数据丧失控制权。 而在同时,开放数据的活动者们则宣称响应式的信息公开(依申请公开)已经跟不上21世纪的步伐了,因为信息早就是一个个数据库而不是文档了。依申请公开作为一个耗时又耗资源的过程应当被淘汰,而开放数据则能通过让民众控制信息流而更好地对政府问责。 从我角度而言,我认为两者的说法其实都有一定道理,但我们不应该指望任何单独一种方式能够带来任何有意义的改变。传统的依申请公开的的确确有其时代背景限制,通常指申请文档,而非数据。虽然我们如今能够通过依申请公开获取大量的信息和数据,但依申请公开事实上仍旧不是吸引公众参与的理想工具,也不能有效改变我们的政治体系使人民对政务能有更多的发言权。 从另一个角度来说,尽管科技在不停发展,但互联网永远不会让我们的依申请公开变成过时的产物。尽管编订数据目录已经逐渐变成了政府透明化的新趋势,我们仍旧需要一个强有力的调查工具来调查那些政府故意设下的信息坑洞,而这个工具就是依申请公开。这在那些至今开放数据仍旧不包含政府游说信息,政治献金数据等等重要政府透明化数据的国家显得极为重要。 从政策角度而言,一个健全的信息公开体制可能在不同司法体制里看上去非常不同。但各国的共识都是访问信息的权利是基本人权的一部分,因此,我们的工作就是在这个科技时代,将这一点落实,同时要牢记一点:权力有着其特殊的动力,因此常常需要有民众去推动,这正如钉子需要榔头才能被钉进木头一样。

Read more

10家基于开放医疗数据的企业

此处原文来自OpenDataNow,原作者: Joel Gurin,译者: 高丰,授权于 CC-BY 3.0 随着越来越多的医疗与健康数据被开放给公众,一批初创企业开始将这些数据转化为实质的创新产品。根据 NPR 本周早些时候的一份报道,风投在今年已经在数字医疗领域投入了20亿美金。而在两周前的 Health Datapalooza (译者注:医疗数据论坛是一个聚集数据科学家,极客,企业家,官员,研究者等等的关于医疗数据开放与使用的论坛,美国类似的论坛还有关于教育的 Education Datapalooza 和能源的 Energy Datapalooza),许多不同的医疗应用,无论是初期原型还是尚在测试期的产品又或是成品,都在论坛上得到展示。这当中的一些公司做的非常好因为他们正在利用开放数据来满足社会公众的真正需求(这一点我们也在开放数据500研究项目中同样观察到)。而在这里,我就来介绍下医疗数据论坛上所展示企业中的其中10家。 Accordion Health: 和许多创业公司一样, Accordion 专注于医疗成本问题。这家公司计划利用开放数据来帮助家庭预估医疗上的花费并帮助他们找到最划算的医疗保险方案。而这里的巨大挑战在于每户家庭的情况都是不同的,因此 Accordion 需要分析数以千百万计的数据来提供可能的方案。然而并非所有他们需要的数据目前都是公开可访问的。更多的开放数据将会使类似 Accordion 这样的公司更有价值。 Biodigital: 这家公司的产品可能是最酷的——一个基于NIH「数字人类」数据以及国家医疗图书馆数据生成的3D人体切片模型资料库。 这个有点像过往在博物馆中可以看到的人类切片模型一样,但至少看上去没那么吓人。 一家企业的座右铭: 让每一个人都了解医疗中的每一项花费 Clear Health Costs: 由医疗活动家 Jeanne Pinder 创建的这家公司宣传自己为 「医疗价格信息的提供者」。正如 Jeanne 名片背后所印的座右铭所说,这家公司志在 「解放知识。让每一个都了解医疗中的每一项花费」。这家公司的数据来自医疗价格普查,医院医疗成本数据库,以及众包医疗花费数据库。它的终极目标是:从简单提供价格信息到最终能够提供医疗服务评估指标。 Healthy Communities Institute: 这家公司利用来自50个州的数据帮助社区领导来解决一个核心挑战问题:定位急需帮助的人群和地域,为其制定可以作出改变的计划,并联合政府内外伙伴来提高效率,最终以透明化的方式汇报结果给各利益相关方。 JEN Associates: 这家企业专注于医疗数据分析,而他们的数据则可能来自医疗服务中心等数据源。他们的工作成果已经有帮助政府作出新的医疗政策以及帮助个人选择合适的医疗方案。 Karmadata: 正如 NPR 报道的,Karmadata 这家公司期望通过大数据来帮助政府或大企业省下医疗费用,而 Karmadata […]

Read more

中国数据门户中失踪的开放授权协议

公开数据≠开放数据! 在之前所写的「开放数据≠公开数据≠共享数据」一文中,我们已经讨论过为什么简单将数据公开在网站上不能算作开放数据。而这里,进一步我们要强调的是,将数据公开在一个机器可读的格式下,也不能被归类为开放数据。开放数据的核心,不仅在于技术上的开放,更重要的是在于其法律层面上的开放,即法律上对使用者如何使用数据设下极少的(具体的可接受的限制在下节中介绍)限制。 什么是开放授权? 如果你较为熟悉知识共享协议,那么或许你已经对开放授权有一定的了解了。开放授权是一类对使用者设下极少使用限制的授权方式。一般来说,开放授权协议允许设下以下两种限制: 你必须在使用内容或数据时对所有者进行署名 如果你对原有内容或数据进行了演绎,那么演绎后的内容或数据也要以相同方式授权。 一个开放授权协议一般会同时(不)包括以上两者,或仅包含一个。但除了这两个限制之外,一般是不允许有其他种类的限制条件的。如果一个授权协议设置了其他的限制条件,那么这个授权协议也就不能算作开放授权协议了。 除了以上两种可能限制之外,开放授权不再对用户使用数据设下其他限制,而这又意味着什么呢? 这意味着对于任何人而言都有平等的机会来访问、获取并使用数据。无论是穷人还是富人,都有相同的权利来使用这些数据。 这意味着使用目的的无限制。无论是使用数据做研究又或是使用数据做新闻报道,还是说拿数据来进行商业产品的开发,都是不禁止的。 现有数据门户的协议评估 那么对于现有的数据门户,也即中国统计局的「国家数据」平台,北京的北京政务数据资源网,上海的上海政府数据服务网,在开放授权这一点上做的如何呢? 一个简单的答案是:三者目前没有一个采用开放授权。 而这也就自然意味着目前三者在数据发布上,只能算作更好地进行了数据公开(采用机器可读格式发布),但称为开放数据还为时尚早。 那么三个数据门户目前是如何对数据使用进行授权的呢? 首先,对于单个数据集而言,目前三个数据门户均没有明确授权协议。如果你访问一个单独的数据集,你无法立刻明确该数据集是否采用了开放授权,你也无法从数据下载页面得知下载了数据后,可以如何使用,是否有一定的限制等等。 其次,对于数据门户本身而言,目前上海、北京都能找到明确的用户协议对数据的使用进行了一定的规定。而统计局的国家数据目前则没有相应的说明。 再来看一看上海北京两个门户的用户协议,我们针对免费、商业使用、平等使用三个最重要的点来进行分析: 首先,对于数据是否免费可获取这一点,目前是采取默认是免费这样的做法来发布数据的。但是,如果你认真读一下北京门户用户协议的话,你会发现它其实注明了 现阶段,用户有权免费获取本网站所提供的所有政务数据资源,享有数据资源的非排他使用权 这句话其实也就说明官方仍旧保留将来对数据获取进行收费的权利,而只是在现阶段这个测试期,进行免费,后续还未知。 其次,对于商业使用,北京的用户协议也非常有意思: 用户不得有偿或无偿转让在本网站中获取的各种数据资源。 在这一点上,北京的用户协议毫无疑问已经违背了开放授权的精神,对用户的使用目的进行了限制。而且,「转让」一词如何界定?如果第三方基于数据搭建API,对API进行收费,API的使用者通过API将所有数据提取,那么这是否属于「有偿转让」?故而基于此,北京门户也就已然不能作为开放数据门户了。 而除此之外,三个门户均未明确用户在商业使用、转让、演绎上的权利,这就给数据使用者留下了一个大大的问号。 最后,针对平等使用。虽然用户协议中并没有明显造成不平等的条款,但是北京门户很中国特色地规定: 用户在发布其APP应用之前,本网站有权对该应用予以审核,决定是否同意发布该应用 这造成了一个非常有意思的问题,究竟官方秉持怎样的原则来进行应用审核?如果这个标准本身不够透明、公正,如何能保证其审查不影响数据使用的平等? 开放授权:数据价值的催化剂 对于中国的数据门户而言,开放授权还是个继续研究的课题。然而,开放授权真的那么重要吗? 答案是一定的。因为开放授权是保证开放数据价值得以充分发挥的基础。 对于任何开放数据的使用者而言,清晰的授权条款明确了他们可以做什么,不可以做什么,从而他们就可以有法可依去使用数据,对其进行加值。在授权条款未明确的情况下,就造成了数据拥有者和数据使用者在数据具体能够如何使用上没有清晰的共识,在今后出现问题时,就很难保障一方的相应权益。 进一步而言,开放数据的商业发展是非常依赖于明确的开放授权的。比如,一种常见的开放数据商业模型就是利用了开放授权协议中「以相同方式授权」来开展的。较为著名的例子是英国创业公司,OpenCorporates,这家公司致力于提供全球企业信息数据,这些数据有的本身开放,有的需要通过技术手段或这信息公开手段获取。OpenCorporates 在搜集并整理大量数据后,将其数据授权在「署名-以相同方式授权」的开放授权协议下,这样任何人都可以使用这个数据来进行创新。但是,对于一些商业公司而言,「以相同方式授权」是一个比较不能接受的条款,因为这意味着他们在使用数据进行演绎后,新的内容也要开放授权。对于不愿意接受这一限制的商业公司,OpenCorporates 就针对他们特别设计了一个付费服务,允许他们付费后,获得一个特别的仅要求「署名」的开放授权。 未来走向 在文章最后,对中国开放数据门户的授权问题列一个许愿列表: 希望中国开放数据门户能够都采用开放的授权 希望中国开放数据门户能够采用相同的开放授权,尽量少用各地方、各部门、各单位自身定制的个性化协议 希望开放授权协议的语言能够清晰、易懂、简练,用图示说明允许做什么,不允许做什么(参考:英国开放政府授权协议) 希望能够明确中国政府机构所采集与发布的数据的版权问题,比如:政府是否拥有版权,数据是否可以归入公共领域等

Read more

登录

最近论坛回复

最新评论