开放数据面临的现实问题

开放数据面临的现实问题 译者:陈嘉育  原文出处:Dennis D. McDonald’s Website 西雅图的Socrata采用基于云的方式实行开放数据项目。近日,Jason Hare、我还有 BaleFire GLobal 团队参加了为期五天的集训营,以求学习了解这一方式的特征。在Socrata总部的时间提供了很多机会来思考“开放数据”一词的含义。 人们谈论“开放数据”时各有各的利益考量,所以“开放数据”一词的定义颇为微妙。 从公共政策角度看,这个名词与“开放政府”“透明度”等概念关系密切,强调政府运作应当是公众可了解(visible)、可理解的(understandable),实践中的措施可以分为两类:第一类允许公众直接获取金融、地理、服务等可以在线处理或分析的数据;第二类则允许公众或私人部门获得原始数据,由数据获得者根据具体目的将数据整理成可视、可用或可得的形态,可能是免费的,也可能是付费的。 若把一个上面这样绕来绕去的定义所涉全部概念画成韦恩图,你很快就会被“隐私”“机密”“公众参与”以及让我诧异的“开源”绕进去。“开放数据”几乎可以是任何定义——你来自哪里,你就如何定义它。所以,“开放数据”一词尽管颇有潜在号召力,但经不起仔细推敲,就像“Web 2.0”一样。 不过没关系,它正把我们往正确的思考方向上带。我们看到越来越多围绕“开放数据”涵义的疑问与讨论,这些讨论是开放数据发展过程中一个健康的标志。比如 Daivd Eaves 在他的《开放数据商业:危险的炒作》中写道: 把“开放数据”一词冠在“商业”前容易让人以为开放数据商业某种程度上是独一无二的——事实上不是,这是种危险的误导。 Eaves继续写道“……开放数据并不是消解一般商业逻辑的魔石”,换句话说,你还是需要制定商业计划,你还是需要“销售”某种东西或服务,你还是需要在乎为目标客户提供服务所产生的成本——即使你传递的价值建立在政府提供的“开放数据”上。 开放数据承载了许多期冀,但我们首先要把它从极客掌控中拉回来,Benedict 说: (在开放数据领域)有一个错误的假设,即每个人都知道什么是数据,以及数据多有用。然而事实完全不是这样。即使人们接触了开放数据,他们中的相当一部分不认为开放数据对他们自身或身边人的生活有任何关系或意义——他们不过是科技界人士追捧的概念而已。这是问题所在。 Dellot 未免对极客太苛刻了些,但我明白他为什么会做出这样的论断。我一直很关注“技术运用”(technology adoption),即社群运用新出现的技术需要经历哪几个阶段。这是个需要不同群体共同协作的过程。公共政策视角的开放数据产生在有各式各样的网络协作技术来组织、管理与获取数据的时代。没有一个单一的群体可以主导开放数据的推广这些资源网络——哪怕是Dellot笔下的“极客”。正如我在如何永续你在“数据松”(datathon)中的努力一文中所说的一样,开放数据活动本身往往由科技界人士主导,但活动前后的事情往往影响了活动的成功与否。你需要的不仅是分析师或“极客”,你还需要商业人员,计划者,和具体领域的专家。 这些都不是新玩意。把所有“利益相关者”引入过程或项目中来一直是成功的一大关键,在开放数据领域也不例外。试图把“极客”排除在你的开放数据项目外是当然错误的,你既需要专家来处理大量数据,也需要专家从数据中挖掘意义。这意味着你的开放数据团队中要有些人既懂分析也懂硬件、软件和所分析的问题。 公众在开放数据中扮演什么角色呢?你如何确保公众——或者你的其他目标群体——有意愿来理解并利用你的开放数据项目呢?在我看来这是问题的关键,而不是“极客”影响力太大了或者开放数据的目录不够完整。 正如Eaves在他的文章中所言,开放数据商业仍然是“商业”,无论你受不收费它的运作必须像商业一样。所以,你给开放数据设计的配套服务是非常关键的。客户和公众需要理解他们可以运用哪些数据,需要花费多少钱,以及这些数据服务能给他们带来多大益处。如果你队伍里的“极客”了解上述全部问题,那不错;如果还不了解,你需要寻找其他领域的专家,他们应当理解数据服务可以怎样帮助目标客户解决他们面临的问题。

Read more

开放数据≠共享数据≠公开数据!

  开放数据 (open data) 这个概念自09年奥巴马政府宣布「政府数据默认开放」起已经成为了这个数据革命时代的重要组成部分。但当我们在谈论开放数据时,我们到底在谈论什么,是在说共享数据吗?是在说公开数据吗? 答案是:两者都不是,开放数据并不等同于共享数据,它也不等同于公开数据! 共享数据,顾名思义是将自己掌控的数据在「一定的条件下」与「指定的第三方」共享使用。一个很简单的例子,大家在注册一些服务时(比如申请邮箱,开信用卡等等)都需要提供一定的个人信息,而服务提供方都会注明「信息仅供服务注册使用,不会提供给第三方使用」,这就属于一种消费者和服务提供者之间的基于某种契约的数据共享。 那么什么是公开数据呢?相比与数据共享,公开数据是指「任何人」都有权利访问,但只能在「一定的条件下」获取并使用的数据。这里可以首先看到,数据的受众在公开数据的情况下扩大到了「任何人」,但数据的获取与使用仍旧收到限制。比如,最新的国家人口普查数据任何人都有权利访问,但你只有付费才能获得,且需要在统计局版权规定下进行数据使用。 我们可以看到,上面我们着重点出了两点: 1. 「是谁能使用数据?」,我们关心是否所有人都能用这个数据还是仅一部分人能用 2. 「使用是否有限制?」,我们关心是否数据发布者有利用版权等法律条文或自行定制的条约来限制数据的分发,使用和演绎。 而共享数据和公开数据在这两点上都不能说是没有任何的限制,但信息的无阻碍流通是我们这个数据时代最关键的,故而我们强调开放数据,就是要破除掉「是谁能使用数据」和「使用是否有限制」上的限制,让「任何人」能够「没有限制」地去使用数据——无论是利用数据进行商业活动还是对数据进行重新的整理编辑再分发。 说到「没有限制」,除了可能的版权等因素造成的「法律限制」来约束我们如何来使用数据,这也同时涉及到另外两个方面:1)数据是否免费能获取?即获取数据这一点上是否有「经济限制」。2)数据本身是否提供在一个机器能轻易处理的格式下,即是否采用「机器可读」格式,是否有「技术限制」。 对于「经济限制」这一点,我们可以看到,在共享数据的情况下,很多时候一些数据提供方都需要你支付一定的费用,可能是现金可能是虚拟货币,才能获得数据。比如数据堂有需要付费的数据,百度文库等在线文档也会需要积分下载。而公共数据,也并不是都免费的,比如上文提到国家人口普查数据,最新的数据需要你付费才能获得(当然,你会说我能网上免费下载到,但此类「灰色数据」后文会再讨论)。而对于开放数据,所哟「原始数据」都应当免费获得,而基于「原始数据」产生的价值服务,例如API,则可以收费。 再说到「技术限制」,一般有两种情况。一种是数据本身分享在一个机器较难处理的格式下,比如很多政府机关的数据喜欢放置在word文档,或者PDF里,这就造成了数据提取的困难,甚至有时候数据无法完全提取。另一种情况是,数据虽然可见可访问,但是本身被锁死在某个软件系统里而无法提取。比如,上海地铁实时客流数据,作为一种公开数据可在网站访问,但是你却无法真正获取数据,因为数据被锁死在flash应用中。这些都是再使用共享数据,公开数据中经常遇到的技术难关。而对于开放数据而言,机器可读是一项基本的条件。数据必须被提供在开放格式下,比如CSV,shapefile等等,拒绝PDF以及复杂的HTML等都是基本的要求。 在文章最后,我们不得不再讨论下「灰色数据」,这部分本身应该收到版权保护的数据,因为中国特有的环境,而可以在互联网上免费获取。但是对于「灰色数据」而言,其在使用中有许多问题。首先,灰色数据本身不是由数据真正的拥有者发布的,从而你无法保证数据的完整性和准确性。其次,虽然你能够免费下载这些数据,但是如果运用于商业,你就时刻面临着原版权方追究你责任的风险。最后,灰色数据没有数据更新的保证,对于一些更新频繁的数据,很难说更新的数据会被及时「盗版」出来,这就造成了依赖于这些数据的服务无法保证其本身品质的问题。 综上,开放数据作为一种免费的、无使用限制的数据资源应当受到我们更多的关注,搞明白共享数据、公开数据、开放数据的差异,则是我们在中国推进开放数据所需做的第一步。

Read more

数据共享并非数据开放

此处原文来自开放数据研究院,原作者:  Jeni Tennison,译者: 陈翠 在过去的一年中,我们注意到这样一种令人烦恼的趋势:政府将数据分享作为数据广泛开放政策的一部分。(政府支持数据分享,好像只是为了迎合数据广泛开放政策,而非真正意义上的数据开放) 数据共享并非数据开放 这篇文章将会解释数据分享与数据开放的不同之处以及彼此间的相同之处。 数据分享是将受限数据提供给特定的组织或者个人。 之所以某些数据的访问权限是受限制的,是因为这些数据或敏感,或涉及个人。一旦公开,它或许还会导致安全隐患。数据共享可能涉及个人、政府,也可能涉及政府之外的事物,列如、:研究人员,慈善组织,商业公司等。 我们可以看到的由政府所采取的数据分享可以是 HMRC (英国税务海关总署只为特定的信用调查机构提供完整的增值税登记报表,而教育部则可以为较多的数据分析公司提供国家学生数据库资料 英国国家医疗服务系统为只要公司提供匿名的健康数据。  数据开放是将受限制的数据提供每个人 从字面上讲,不管数据本身涉及什么,它都必须毫无限制的对任何人开放。因此,数据开放不应该有任何法律以上的限制。 比如:个人资料只能在法律要求出版的情况下成为公开资料。(列如;在《伦敦公报》上发布破产通知),或者与数据相关的人允许其出版。 更多的数据总是更有用(如果你只到如何使用它) 如果所有公共部门所持有的数据能够共享,那么会有很多的公司、慈善组织和个人从中获益,特别是那些只对该组织或者个人分享的数据。 个人拥有被政府保护隐私的权利,而数据过多地开放会给社会与个人带来风险,以上个人或者组织从数据分享中获得的益处必须与这种权利与风险相平衡。 我们相信,数据开放会是实现这种平衡最正确的方式。他能够满足大量的数据需求。由于每个人获得的数据是相同,数据分享确保了一个公平竞争的环境,并且它对个人信息的发布有所限制。 当数据分享落实到位时,我们建议使用数据开放,将本应该限制发布的数据降到最低,使整个过程透明化,确保每个人都可以从中获利。 1、发布公开数据:提供统计的或者匿名的信息,这些信息能够满足许多组织对数据的需求。 2、记录数据和获取数据的过程:必须明确数据所涉及的内容和获取数据的流程,想要获取资料必须首先通过访问权限。全国学生数据库中的信息就是一个很好的例子。 3、发布所有访问开放数据的请求:公众有权知道是谁要求并被赋予了访问权限,以及他们访问该数据的目的。当数据开放变得透明,它能确保有一个强大和系统的流程来获取数据访问权限。当某些组织缺乏足够的理由并要求访问数据时,这一流程会拒绝这样的访问权限。 4、发布数据分析的结果作为公开资料:那些因开放数据而得到的资料,必须被发表,使公众应受益于公共数据的分析结果。 5、监控重复的访问请求:当相同的数据被不同或相同的组织重复访问时。这显示,该组织所拥有的数据和分析结果应被公开和发表。作为公开数据使公众受益。 许多由公共部门掌握的数据应当对公众开放,也有许多数据虽被公共部分掌握,却不能共享。 我们应该注意其不同点,不要混淆两者。     立即订阅「开放数据前沿」,关注每周开放数据资讯

Read more

公开存取vs.开放存取

此处原文来自congressionaldata,原作者: Molly Schwartz,译者: Sainan YU  “难道国会不是已经将信息开放给公众了吗?” 每当我向人们介绍国会数据联盟的目标是促使国会开放其数据时,我经常会被反问上面的问题。在信息数字化的时代,“开放存取”是一个复杂而有多重含义的概念,但其核心在于如下三点: 挖掘数据的能力 使用数据的能力 重新定义数据的能力 那么,实现国会数据的开放存取就不仅仅意味着将信息在线发布:这些信息需要在适合的格式下发布。仅仅将数据以一对对文本文件进行展示是非常成问题的,因为计算机可不能对这样的信息进行有效读取。 在当前的信息环境下,不能被计算机储存和读取的信息就好像是建造了一辆虽然能适用于各种地形却只能直线前进的交通工具一样。除非你的目的地在正前方,否则即使它有能力带你去任何需要去的地方,那也是行不通的。这完全违背了设计这样可以不按公路路线行驶的交通工具的最初目的。 那么,可计算机读取的国会信息又能如何来辅助开放存取的实现呢? 挖掘数据:搜索引擎可以对文件的内容进行搜索 使用数据:更多的应用程序可以获得并展示数据。手机应用可以提供即时更新,API(Application Programming Interface,应用程序编程接口)可以对其进行修正并即时体现在其他网站上,网络程序能以数据表格的格式对信息进行下载等等。 重新定义数据:数据可以通过各种程序转化为表格、图像或者精致的图像。记者和公民也可以及时获得能够为他们所用的数据。 更何况,还有不少附加的好处。计算机可读的数据对残疾人更为便利,因为页面阅读器可以帮忙发声。这些数据也更容易保存,因为它们并不依附于我们使用的那些在下个十年内绝对会过时的软件(还记得记忆软盘和 Word Perfect软件吗?)既然国会通过的法案会在数十年内有效,我们自然应该将那些维持法案有效的数据保存上这样长的时间。  

Read more

登录

最近论坛回复

最新评论