对于开放环境数据的一些思考

授权信息 请第三方(非商业机构)转载时在转载内容前添加下列文字:「本文作者为高丰@开放数据中国,内容授权于知识共享协议 CC-BY-NC 国际4.0 (署名-非商用) 之下」,作者保留对不按授权要求转载的第三方追究责任的权利。 商业机构(包括通过流量、广告等方式运营的自媒体机构、传统媒体以及商业机构所开设的社交媒体等)请先通过邮件书面取得授权再行转载。 作者信息 高丰,英国南安普敦大学计算机博士,现为开放数据与社会创新独立咨询顾问,兼复旦大学数字与移动治理实验室特邀研究员。自2013年起,他担任英国开放知识(原英国开放知识基金会)大使,在中国大陆地区倡导、推广、支持开放数据运动,后于2014年2月联合发起开放数据中国(opendatachina.com),致力于打造中国开放数据生态圈。高丰先后作为受邀专家参与开放数据指数(open data index),开放数据晴雨表(open data barometer),英国城市级别开放数据普查等研究和咨询项目。他已和英国开放知识、开放数据合作伙伴计划、世界银行、瑞士Lift创新会议等在开放数据事务上开展过合作。你可通过fenggao@opendatachina.com 联系他。 前言 实际上针对这个题目,早在14年中,我尚在青悦参与一系列环境数据整理与开放的工作时,就已有了动笔的念头。而在14年末,受邀在芯世界创新中心所举办的「DIY My City」会议谈智慧城市和开放数据时,也曾从环境数据角度谈及了开放数据所能带来的智慧环保,但无奈之后要参与多项工作,一直未能找到机会系统地对这个话题进行整理。恰逢此次8月14日,上海青悦将在北京组织「环境数据开放与应用分享沙龙」,邀请了来自环保部政研中心、中国清洁空气联盟、南方周末、阿里巴巴公益基金等不同领域的利益相关者共同探讨环境数据开放,我才能找到时间静下心整理出了这篇文章,写下自己对该话题的一些思考,希望能对讨论有所助益。 何为开放数据 既然讨论的是环境数据开放,那么自然要先对开放数据予以解释,并将其和相近的「数据共享」与「信息(数据)公开」加以区别说明。 要理解开放数据,就先要了解「开放」究竟意味着什么?根据英国开放知识基金会(Open Knowledge Foundation) 的定义,开放(openness)需具备以下3项基本元素: 非歧视性:数据若开放,则其对任何人都开放。 机器可读性:数据若开放,则应是机器可读格式,例如对于表格数据,应该采用csv,而非pdf。 开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、拷贝、传播的权利。 由以上开放性的定义来说,我们可以比较一下开放数据和传统信息公开要求下的数据发布有何不同。例如,目前按照环保信息公开要求,各城市均公开发布了本地空气质量监控的数据,但对于除上海之外(其提供下载)的城市而言,这些数据的发布都是通过交互网页的形式提供给大众的,你并不能在页面上直接下载到某一时刻所有监控站点的监测数据,更无法下载到某一历史时间段上的监测数据。这样的情况下,数据虽然公开,但仅限于「看」,而无法真正去「用」(可以思考一下,要计算一年内平均pm2.5值,或者绘制出某一特定监测站一个月内pm2.5的变化,在无法下载数据的情况下,你能如何办到?)。 所以,开放数据中的「机器可读性」对数据释放的格式设定了标准,即一个数据开放的话,其一定被提供在一个可用也易用的数据格式下,通常我们说表格数据就采用CSV(Excel的XLS也可以),因为这种格式你能轻易使用文本编辑器或Excel打开从而进行必要地加工处理,而PDF或者网页在这种情况下就不满足条件,因为你无法对PDF或网页上的数据做便捷的数据加工。 另一方面,开放数据也强调数据的完整性,特别对于传感器采集的数据,开放数据应当是拥有完整历史记录的数据。如上述空气质量例子中,如果空气质量数据被发布为开放数据,则其历史数据都应当可以下载,两项情况下,用户可以选择一次性下载所有历史数据,或者选择下载指定时间段的数据。 而相对于数据的共享,数据开放的差异则集中体现在非歧视性和开放授权性两点。在数据共享情况下,我们说数据可能并非是所有人都可以访问到,而只限定某一特定群体(比如合作伙伴)才能访问,而数据开放则所有人没有差异化地都能访问到这些数据。而在授权上来说,数据共享通常会限定使用者在特定目的下使用数据并且不可以再传播给第三方。而开放数据则不同,一般开放数据习惯采用知识共享协议(CC协议),从而确保第三方在获取数据后可以自由、免费地使用、加工、复制、分发这些数据。 对开放环境数据的尝试 在开放环境数据上,英国 Digital Catapult 所建设的 Environment Data Exchange 致力于提供一个统一的数据平台,帮助NGO、政府、企业、公众一站式查找到所需的环境数据资源。目前该平台已经有英国环保部、世界银行、牛津洪涝网络等不同机构提供数据,数据集已达到300 多项。其中既包含了开放的数据,也包含了一部分共享数据。 而在印度,社会组织也不断在推进政府开放数据的日程,特别是推动政府去开放环境相关的数据。不同的NGO通过在Data.gov.in上提交数据需求,直接向政府主管部门申请,举办工作坊进行沟通等途径,已然促使印度政府开放了700余项环境数据。 美国 Data.gov 则专门针对气候变化开辟开放数据专题,NASA等一系列机构开放了大量卫星图片、传感器监测数据用于环境治理。而美国的另一项针对水环境的 Open Water Initiative 则野心更大,其期望将目前不同机构采集管理的零碎水环境数据完全整合进一个关联的国家水环境数据框架中,从而进一步开放水环境数据作为服务面向大众提供,激发大众对这一类数据加值利用的兴趣。计划中,它不单将整合描绘事实的水资源数据和水质数据,也将同时整合人们如何使用水资源的数据,比如多少农业用水回灌入河道,饮用水消耗量多大等等,从而为不同利益相关者提供完整的水环境数据全貌。 除了政府之外,环境数据也由不同的非政府组织在采集与开放。比如关注于亚马逊热带雨林的 InfoAmazonia 项目号召记者、NGO工作人员等将雨林相关的图片、数据、报道、音频等开放共享,从而能够作为不同的图层叠加到地图上形成一张高度交互、情境相关的亚马逊热带雨林地图,帮助不同人员了解雨林内正在发生的事情,了解哪些地方需要NGO的投入等等。 而在国内,由上海青悦牵头,也于2014年开始了开放环境数据计划。计划初始主要关注了两个方面的数据:一为空气质量数据,二为水质量数据。 就空气质量数据而言,本身已经由pm25.in完成了全国监控点的数据汇总并输出为API,但由于该平台所提供数据均为实时数据,缺乏对历史数据的积累,因此青悦所做工作便是基于其API进行历史数据的存储,从而构建一个自2014年起积累的历史空气质量数据库(air.epmap.org)。而对于水而言,初步工作主要聚焦于地表水监测数据(wat.epmap.org),通过爬取「国家水质自动站数据实时发布系统」的数据,从2014年起积累地表水监测点的水质数据。 另一方面,青悦开展的饮用水溯源计划则着重于通过数据还原家庭饮用水自上游水,到水源地,到取水口,到自来水厂,直到家中自来水管(二次供水)整条供水链上每一个环节的水质。该项目针对上海进行了数据采集的试点,尽可能采集了每一个环节的水资源及其水质的数据。而在这个过程中,青悦也注意到目前公部门在公开相应水环境数据的过程中尚有诸多不足,大量数据未得到公开,或者公开后更新不及时,或者不同部门公开的数据格式不同等。基于这一实际情况,青悦进一步建立了一套针对水环境数据公开的评估框架,先后针对上海、北京、深圳等地开展了政府和事业单位在公开发布相应水环境数据的情况(epmap.org/ngo/page/report)。 […]

Read more

登录

最近论坛回复

最新评论