费城的开放数据项目——开放政府之声

此处译文原文来自于阳关基金会(sunlight foundation),原作者:  Mark Headd,译者: 王海涛 免责声明:以下观点仅代表客座作者本人的立场,其评论责任由个人承担,且与阳光基金或其任何员工无关。因此,阳光基金并不为客座博客任何信息的准确性承担责任。 费城是一个具有启发和教育人们开放发展传统的城市。 所有学过历史的人都知道,民主发源于此。但是,其很少因为在其他许多领域开拓性的贡献而为大家所熟知。与那些热爱它的人一起聊天,则他们几乎没有办法描述出费城属于“先锋城市”的特质。 但目前大部分费城开放数据项目的成功应该归功于早期过于痛楚的努力。当前,费城正处于其开放数据革命的关键点,该革命也发生在其当前市长离任前的这段时间,它将为未来几年内费城的开放数据项目指明方向。 如今,也是时候为费城的开放数据项目的下一阶段寻找动力了,从而确保其生机与活力,以及通向未来的成功之路,尽管这依然有些残忍。 费城开放数据项目之动力源泉 在费城市政府坚定地开展它的开放数据项目以及实行一项正式的开放数据政策的前几年,费城交通局( Southeastern Pennsylvania Transportation Authority ,SEPTA)早就开始在当地支持开放数据了。 类似许多大的交通局,宾州东南交通管理局是极不情愿地被带入开放数据的世界里。一些具有民权黑客先驱爬遍SEPTA网站的每一个角落,为的就是寻找具体的信息从而为用户开发易用、易理解的崭新的移动应用。 当SEPTA的管理部门最后终于意识到开放数据的潜在前景后,交通开放数据的闸门就这样打开了。这个时候,SEPTA开始公布他们的数据,部署相应的API开发接口,同时鼓励当地的开发者社区来构思他们如何利用这些数据以及他们想开发什么样的移动应用。在2011年秋天,当SEPTA的高层正式出席了费城首届“交通黑客编程赛”,当地的民权开发者们开始意识到他们任重道远。 许多参加首届编程赛的开发者,还有其他在费城多年一直提倡开放更多数据的人汇集到一起,向市政府最新任命的首席创新干事请愿,敦促政府采取正式的开放数据政策。 早期的开放数据项目的成就造就了后来SEPTA部门通过了结构更加清晰的开发者项目,从这一点我们能很明显推断出,费城市政府将会实行一项正式的开放数据政策以及其首席数据干事的创造力这两点都是毋庸置疑的。 开放数据,关乎信任 并不是特别熟悉开放数据的人会轻易地去将针对实用性的数据和针对透明度的数据拿来比较。前者有时被视为平民的出路,也是类似开发者编程赛的基本动力,以及刺激新的民企发展的推动力;而后者就商业发展而言则被视为无价值或价值较小。 但是为了平民编程赛和类似企业活动的长远发展,平民程序员和普通初创企业应该对政府领导者将会长久地支持开放数据深信不疑。如果政治环境变化了或者城市领导阶层的被颠覆了,没有人会在可能鸡飞蛋打的项目上浪费精力。而未能建立这种信任也会阻碍平民编程赛和创新企业蓬勃发展的道路。 为了与数据消费者建立这种信任关系,政府能做的最重要的事儿就是开放能够强化政府透明度的数据。如果政府不再愿意投资公开那些能让消费者评估其行为的数据,则管理部门的内部发生变化或者当地政治环境会极大影响市政府的政策,而开放数据项目也会极有可能因此免受它们所带来的损失。 开放一些能让普通人提出苛责问题的数据这件事儿本身就表明,政府正在向外界发出讯号,告诉潜在的数据消费者——我们不是闹着玩儿的,数据共享并非虚无缥缈,空中楼阁。 寻找开放数据的灵感 在和许多政府领导人交流的时候,我给的建议总是,关于开放数据最应该公布数据的领域之一就是预算和财政数据。一个城市本身无法开放,除非它能以易用的形式分享它财政支出的详细数据,例如如何花费、和谁以及花费金额。 其他大多数主要城市已经就开放预算开支、与供应商合同以及公务员薪水的数据做了一些投资。而费城是一个例外,这座城市目前未通过任何易用的形式公布预算或开支数据,或者是公共事务用途的雇员薪水的信息。但费城的一个公共机构——费城学区(School District of Philadelphia,SDP),目前已经在改变这种现状的道路上踏出了坚实的一步。 过去的几个月中,SDP已经开始公布其预算、财政以及雇员薪水的数据。学区的领导实行这个政策是在该区经历严重的经济困难和苛责的公众审核情况下进行的。尽管市政府的官员们还在持续争辩公布政府开支和雇员薪水(这两项都已经被定为数据开放的项目超过一年了),SDP已经为市政府的发展方向提供一个新的视角。 费城应该再次从另一个正在向前迈进的地区公共机构吸取灵感,而当前费城也是时候兑现开放与公布政府预算和雇员薪水的诺言了。如果当前市长离任之前未能完成这一壮举,对费城未来而言是前途堪忧。

Read more

利用信息公开日志指导数据开放

原文出自 Reinvent Albany, 译者高丰 执行摘要 如今,将公共记录和数据放到网上对于政府单位而言已经是一件成本低廉,操作简单的工作。纽约州和纽约市政府都已经通过自己的开放数据项目向社会开放了上千的数据集。但奇怪的是,政府机构仍旧对于到底要优先发布哪些数据感到困惑。而这正是他们可以咨询信息公开日志的地方。大众通过信息公开向政府提出大量信息和数据的申请,而这正是他们表达需求的方式,政府机构可以从中了解哪些信息是高价值数据从而进行开放。 在2014年6月,州环境保护局向 Reinvent Albany 提供了2013年所的信息公开日志数据共计3,977条记录。在这个日志文件里,包含了信息公开申请者基本信息以及信息公开的简要申请内容。 环境保护局2013年信息公开日志中的要点 l   80%的申请(3,456)来自商业机构 l   12家地产公司提出了20%的信息公开申请 l   大约55%(2,200)的申请是有关特定地产上所发生的化学品或危险品泄漏事故 l   其他州或市级机关向保护局提出了69项申请 l   记者提出的申请仅占到3%(73) 我们的发现 l   保护局可以通过主动发布频繁被申请的数据来减少50%的申请 l   部门保留的信息公开日志能够帮助明确哪些数据被频繁申请 l   很大比例的信息公开回复是基于个别几个数据集作出的 l   部门保留的信息公开日志能够帮助明确哪些是「常规信息公开申请者」 l   我们的分析得以完成完全是依赖环境保护局保留了完整的,电子化的信息公开日志。而很多部门并没有这么做。 l   「常规信息公开申请者」对于今后能够在开放数据门户上下载他们通常申请的数据感到很有兴趣 我们的建议 l   纽约州和纽约市的公共机构和负责开放数据事务的公职人员应当对信息公开日志进行分析 l   频繁被申请的公共数据信息应当被作为开放数据发布 l   公共机构应当采用自动化的信息公开管理系统来追踪申请者的申请内容主题   谁在向环境保护局提出信息公开申请 2013年,环境保护局共收到3,977项信息公开申请。在其中,3,456项申请有明确申请人所在单位信息。而剩余521项则无此信息,故假定为是独立个人作出的申请。 通过分析单位信息,我们发现大部分信息公开申请来自商业机构,例如咨询公司、地产公司、律师事务所等。在2013年,一批咨询公司和工程公司提出了大部分的信息公开申请,其中12家公司提出了全年20%的信息公开申请。 商业机构提出了80%的信息公开申请 向环境保护局提出申请的大部分都是商业机构,仅有5%的申请来自环保活动者或记者(73项申请)。就算我们假定所有独立个人所提出的申请,也可以算作是记者为了自我保护故意如此申请的,那么记者总共提出的也就594项申请,仅比商业机构中的律师事务所多了一点(556项)。 地产公司为了查找信息通常外包相关业务。咨询公司(consultants)和工程公司(2,563)提出了地产经纪(57)50倍的信息公开申请。 我们的分析结果表明,向环境保护局提出申请最多的是商业机构,而他们所要申请的内容往往集中在几个特定数据集上。 常规信息公开申请者所需的是特定几个数据集 Reinvent Albany 和两家地产公司进行了访谈,这两家公司在2013年共提出了300项申请。以下是我们从访谈中,以及后续对其他类型申请者所提出申请的分析所得到几点结论: 环境保护局2013年收到的申请中有2,200项是关于特定房产的 大部分这些申请都是有关于油罐仓储和泄漏事故的。这两家地产公司提出申请的原因是环境保护局提供的在线查询系统非常简陋,而且有大量限制,并且无法下载数据。 […]

Read more

10家基于开放医疗数据的企业

此处原文来自OpenDataNow,原作者: Joel Gurin,译者: 高丰,授权于 CC-BY 3.0 随着越来越多的医疗与健康数据被开放给公众,一批初创企业开始将这些数据转化为实质的创新产品。根据 NPR 本周早些时候的一份报道,风投在今年已经在数字医疗领域投入了20亿美金。而在两周前的 Health Datapalooza (译者注:医疗数据论坛是一个聚集数据科学家,极客,企业家,官员,研究者等等的关于医疗数据开放与使用的论坛,美国类似的论坛还有关于教育的 Education Datapalooza 和能源的 Energy Datapalooza),许多不同的医疗应用,无论是初期原型还是尚在测试期的产品又或是成品,都在论坛上得到展示。这当中的一些公司做的非常好因为他们正在利用开放数据来满足社会公众的真正需求(这一点我们也在开放数据500研究项目中同样观察到)。而在这里,我就来介绍下医疗数据论坛上所展示企业中的其中10家。 Accordion Health: 和许多创业公司一样, Accordion 专注于医疗成本问题。这家公司计划利用开放数据来帮助家庭预估医疗上的花费并帮助他们找到最划算的医疗保险方案。而这里的巨大挑战在于每户家庭的情况都是不同的,因此 Accordion 需要分析数以千百万计的数据来提供可能的方案。然而并非所有他们需要的数据目前都是公开可访问的。更多的开放数据将会使类似 Accordion 这样的公司更有价值。 Biodigital: 这家公司的产品可能是最酷的——一个基于NIH「数字人类」数据以及国家医疗图书馆数据生成的3D人体切片模型资料库。 这个有点像过往在博物馆中可以看到的人类切片模型一样,但至少看上去没那么吓人。 一家企业的座右铭: 让每一个人都了解医疗中的每一项花费 Clear Health Costs: 由医疗活动家 Jeanne Pinder 创建的这家公司宣传自己为 「医疗价格信息的提供者」。正如 Jeanne 名片背后所印的座右铭所说,这家公司志在 「解放知识。让每一个都了解医疗中的每一项花费」。这家公司的数据来自医疗价格普查,医院医疗成本数据库,以及众包医疗花费数据库。它的终极目标是:从简单提供价格信息到最终能够提供医疗服务评估指标。 Healthy Communities Institute: 这家公司利用来自50个州的数据帮助社区领导来解决一个核心挑战问题:定位急需帮助的人群和地域,为其制定可以作出改变的计划,并联合政府内外伙伴来提高效率,最终以透明化的方式汇报结果给各利益相关方。 JEN Associates: 这家企业专注于医疗数据分析,而他们的数据则可能来自医疗服务中心等数据源。他们的工作成果已经有帮助政府作出新的医疗政策以及帮助个人选择合适的医疗方案。 Karmadata: 正如 NPR 报道的,Karmadata 这家公司期望通过大数据来帮助政府或大企业省下医疗费用,而 Karmadata […]

Read more

黑暗中的数据:开放数据目录的重要性

此处原文来自阳光基金会,原作者:Matthew Rumsey and Sean Vitka 译者:郭晓利 在过去几周里,我们有幸与部分机构(至今为16个)座谈商讨他们即将面世的开放政府计划。这些会议总体成果颇丰,来自交通部、总务局和健康与人力服务系统的代表人员所表现出的合作交流与坦诚对话的意愿更是令我们兴奋,也给我们留下了深刻印象。 除去别的议题,我们充分利用这些机会鼓励各个机构全面公开他们的企业数据目录,这也是奥巴马总统的开放数据行政命令对他们提出的要求之一。 作为开放数据计划的一部分并与之一起公布的开放数据工作指引仅要求各个机构公布一份他们已经公开或易于公开的数据列表。这允许这些机构将其企业数据目录仅作内部信息而不公开,从而有效掩盖他们不想公开的数据集的存在以及这样做的动机。然而,我们并不认为这些机构有充分理由不公开这些综合数据目录。事实上,公开这些数据将有利于公众利益,有益于政府,也有助于民主。 如果公众无法获得这些机构所拥有数据集的全部列表,即使是那些包含私人信息的数据名称,公众将无法了解政府内部如何运作,何种信息被截留,为什么以及该去何处查询,从而政府也将无法取信于民。 企业数据目录与公共数据列表非常引人注目,因为它们与公众共享机构数据资产,但这些目录和列表本身并不公布那些尚未公开的数据内容。因此,各个机构分享其企业数据目录并不会披露任何理应远离公众视野的数据。然而,这一披露行为会使得政府的数据披露决策更易理解,同时公众也可提升对这些机构拥有数据情况的认识。 开放数据计划要求各个机构对于其选择不公开数据的决策提供合理解释。这些及类似决策已经通过一系列渠道向公众公布,包括记录通告系统、隐私影响评估和行政管理及预算局信息采集审查。企业数据目录仅仅是将这一现存信息合并到一个核心的、以数据为焦点的机构化渠道。 易化公众对机构持有的全部数据情况的获取也将对机构运作产生积极影响。自由信息法案是公民可以用来探索政府运作情况的一个强有力的工具。它的使用同时也对联邦机构及其相关雇员提出了严峻挑战。企业数据目录的公布不仅使得公众了解到哪些数据尚未公开,更利于公众理解为何政府选择不公开这些数据。这将帮助公众锁定其自由信息法案诉求并更好地理解机构决策背后的动机,从而减少投机性自由信息法案诉讼,并最终减少昂贵且耗时的司法裁决程序。 如果没有对政府拥有数据情况的全面了解,我们就无法展开关于政府应该公开哪些数据的真正辩论。奥巴马总统的开放数据行政命令旨在助力这一辩论。然而,如果不公开企业数据目录,这一目标也将无法全面实现。

Read more

超链接与希望——Data.gov已上线五年

此处译文原文来自于阳光基金会网站,原作者: John Wonderlich,译者: 王海涛 在Data.gov上线后的过去五年中,这个由整个政府协调的数据门户网站发展极为迅速,已经成为立法机构斗争的另一个主题,也成为一个国际开放资源协作以及大量竞争和对话的核心部分。我们花费了五年的时间来完成奥巴马政府在Data.gov上的尝试,现在也是时候来拷问一下:这个尝试是否是成功的? 这个问题本身其实很难回答,因为为了搞清楚Data.gov有没有获得成功就必须再问一大堆相关的问题。例如,人们是不是真的在用这些数据?如果这个网站不存在,他们会不会已经找到他们所想要的数据?这里的都是新数据,抑或只是被打上了新的标签?这个网站能服务哪些人,以及它现实中正在为哪些人所用? 这些对Data.gov来说都是难以回答问题,因为通常我们不会将价值和期望统统寄予于某些网站之上。关于开放数据,夸大的、真实的前景和混淆已经将政府数据门户网站置于民主社会中一个尴尬的位置上,同时也将它打上开放与由超链接和希望组成的技术变革的标签。当与其他所有开放的前提材料相比,众多的链接只是迈向开放的相对较小的第一步。就像我们从前所描述的那样,“很遗憾的是,这不是对一个开放政府的剖析。相反,这是对目前备受关注的开放政府数据倡议的剖析。政府已经学会告诉民众,数据将来会是开放的、会让民众找到他们所需数据、会公布一些经过筛选的数据集以及指出其重复利用的方法。”即使如此,数据门户通常会被讽刺为过分夸张的变革。 奥巴马政府已经显著地改变了他们所谈论的关于透明化的方式,正在将方向转向类似Data.gov的这种创意想法。早期的关于民主与责任的演讲透露出奥巴马的一些竞选论调,包括解决布什政府关于民众隐私方面问题以及利用科技来建立更具民主特色的政府。Kundra的Data.gov被视为一个有效的工具,该工具能够帮助保证公职人员的责任心、降低政府运作的开支以及推动整个政府执行更具吸引力的政策制度(原文来自视频)。尽管目前关于Data.gov上的数据是否有助于实现这些目标这一争论尚待解决,但是再也没有一个奥巴马政府的高级官员再声称或者宣扬要“揭露真相”。 政府数据透明度的努力已经使他们失去了原本的雄心壮志,以至于一项新的Data.gov影响领域仅仅只是政府数据在商业上再利用以及为所谓的开放数据公司的财务估算统计。曾经致力于推动民主,现在却是为自己谋求私利——关于政府透明化的雄心壮志的退化,我想不到比上面更好的例子。尽管在奥巴马竞选的金融演变过程中有强劲的对手,选举活动中财务改革派已经完全被黑钱先行者给收买了。 奥巴马关于利用科技来使权力透明化的美好想象也已经在经济狂热中渐行渐远,最终只能在一些私有产业活动中找到一点蛛丝马迹。 但是,这些并不能说明Data.gov是毫无意义的。如果我们只从他们带修饰的表象来评判所有的政府项目,这对我们来说会是一个灾难。这也是为什么即使有这么多的挫折,我们还是坚定不移地捍卫这个网站以及与之相关的项目和倡议。尽管政府陈词依赖于对权力来说有些虚幻的纯洁透明度,公职人员依然正在运用Data.gov及相关项目以期获得其所能达到的最大改革深度。 在众多的应用中,Data.gov最大的价值可能就是作为一个组织工具,它能让我们主要集中关注开放政府的价值。这有些类似于国际上的开放政府伙伴关系(Open Government Partnership,OGP),它的主要职责是通过从思想相近的公职人员中培育热情从而授权自发的民主改革。 关于数据质量和信息政策的讨论让政府尝试基于开放数据的政策制定,也首次让我们有机会接触到完整机构拥有的数据表单,而这种讨论却是在不得不对Data.gov做出评判的条件下进行的,比如,有人问多少数据算是很多。尽管,最终可能需要某个法律条款来强制规定机构公布他们拥有的数据,一些政府机构在这方面的工作依然是具有极大价值。 围绕Data.gov的改革过程也是同样地吸引人,就像这些相关改革最终导致重构公众对话机制、机构在阳光下进行运作以及正视公众批评。 即使Data.gov无法达到当初设定的目标,它最大的价值可能在于它为开发者、公务员、政策制定者的渐进式改革创造了调查及对话机制。虽然,通过一项强大的聚合服务在帮助人们在线寻找数据方面,Data.gov价值不大,但其最重要的影响是从整体上改变了我们认识和处理政府信息政策的方式。同时,当国会开始更加重视开放数据项目的时候,因为那些由公职人员在Data.gov项目中开创的领先优势,我们接下来的工作将会开展得很顺利。

Read more

政府开放数据:免许可协议的实践

此处原文来自:theunitedstates.io ,作者名单请参见此处,编译:陈嘉育 公共数据包括政府自身产生的数据和政府凭行政权力从外部获得的数据,它们在公共世界的各个角落扮演着越来越重要的角色,从公众参与到媒体监督,从行政透明到政府责任,从鼓励创新到促进增长,公共数据都带来了新形式或者新变化。 当前,白宫就开放数据提出了新目标,政府服务供应商在政府数据生产中发挥更大作用,开放数据的指导原则也随之不断调整。但不管指导原则怎样调整,都应确保联邦政府产生的公共信息不受美国版权法约束、可供任何人无限制地使用。根据《政府开放数据八准则》等纲领性的开放数据标准与原则,若政府欲以政府数据推动善治与企业家精神,则政府数据的再利用不受限为其核心所在。当数据的再利用不受限时,我们称此数据在“免授权协议”下公布。我们坚定不移地认为,美国政府数据应当在“免授权协议”下公布。 这篇文档提供了公布数据时可参考的用语,以使数据符合“免授权协议”原则。这套用语面向美国联邦政府机构。 免授权协议须知 数据必须满足以下全部条件才能称为在“免授权协议”下公布:a)不适用版权法,或获得了版权法的豁免;b)除现有法律的规定外,数据的使用和分享不受限。 版权法仅仅适用政府数据中的一部分。适用版权法的公共信息应当获得版权法豁免以供公众不受限地使用。 政府数据应属于公众领域,不受任何授权协议约束。长久以来,联邦政府掌握的数据都是公众领域的一部分,使用授权协议(包括开放授权协议)与此传统冲突。 若明确地允许对数据再利用,数据将具有更大的价值。需要注意的是,任一政府数据都可能受到国外版权法的约束(详见第三段),建议政府为政府数据申请国外版权保护的豁免,尤其是数据的国外使用特别重要时。 数据创造者向世界开放他(她)的工作成果时,知识共享的CC0-公众领域贡献宣告被广为采用。CO0排除了所有可能排除的国内与国外版权保护及相关权利。 README 用语 下文将介绍几种常见情形下我们推荐的用语。这些语句应当放入数据包的“README”文档中——至少也应放入“LICENSE”文档里,如可能还应放入数据清单中。 1. 美国联邦政府数据 1.1 根据美国法典17号第105条,除特别情况外,美国政府作品不受版权保护。在此条件下,我们推荐使用如下语句: 此数据包作为美国政府作品,属于美国境内的公众领域。此外,【机构名称】根据CC0-公众领域通用贡献宣告 1.0(见http://creativecommons.org/publicdomain/zero/1.0/)放弃此数据包在世界范围内的版权保护。 这段语句由健康与人类服务部的ckanext-datajsm和消费者财产保护署的qu项目采用,这两个项目均放在了github.com上。 1.2 有关政府机构应负责确定开放数据的所属。若数据所属尚未明确,有关政府机构仍应就此明确标示,如注明“此数据可能不属于美国政府”。 一些数据的归属确定同时涉及政府和非政府,这种情况下,我们建议政府要求非政府贡献者放弃相应的版权保护。比方说,政府官方博客上的文章是由非政府的公众撰写,则这些文章适用的授权协议应符合开放定义组织的要求,但请记住:开放授权协议下的作品并不是“免授权协议”,需要以机器可读的形式注明这一差异。实践中,白宫的开放数据项目要求外部贡献者同样通过CC0放弃版权保护,WhiteHouse.gov 也采取了混合手段,详见http://www.whitehouse.gov/copyright. 1.3 如果某数据符合美国法典17号第105条的例外条款,则使用下述语句: 此作品归属于美国政府,但符合美国法典17号第105条的例外条款。然而,【机构名称】根据CC0-公众领域通用贡献宣告 1.0(见http://creativecommons.org/publicdomain/zero/1.0/)放弃此数据包在世界范围内的版权保护。 2. 政府供应商产生的数据 2.1 政府与供应商签订采购合同后,供应商产生的数据可能受到版权保护。这种情况下,签订的合同应该将作品的版权转移给政府,不妨使用以下语句: 根据政府采购合同,此作品的版权归属于【“美国政府”或机构名称】。【机构名称】根据CC0-公众领域通用贡献宣告 1.0(见http://creativecommons.org/publicdomain/zero/1.0/)放弃此数据包在世界范围内的版权保护。 2.2 如果数据版权仍属于供应商,使用: 此数据是【供应商名称】在履行与【机构名称】签订的合同过程中产生的,【供应商名称】根据CC0-公众领域通用贡献宣告 1.0(见http://creativecommons.org/publicdomain/zero/1.0/)放弃此数据包在世界范围内的版权保护。 注意大部分数据在法律上不被允许拥有版权,像在美国事实类数据就不能被赋予版权。换句话说,应避免对非版权法适用范围内的作品赋予版权。然而,如果情况不能确定,用CC0还是更加合适。 3. 主要法律材料 3.1 法院曾认定法律不受版权保护(见Banks v. Manchester, 128 U.S. 244, 253 (1888) 及其他相关案例),美国版权办公室同样持此态度。就联邦政府主要法律材料而言,上述适用于联邦政府的数据通常足够了。但如果法律包含参考标准等难以归类的成分,为了避免疑议并确保全球范围内无限制的可用性,我们建议: 此作品包含不受美国版权保护的法律。为免疑议并确保世界范围内无限制的可用性,【主体名称】根据CC0-公众领域通用贡献宣告 1.0(见http://creativecommons.org/publicdomain/zero/1.0/)放弃此作品在世界范围内的版权保护。 3.2 如果发布的法律包含受版权保护的注释,我们强烈建议以上述声明发布一份不含注释的副本。 […]

Read more

纽约市:预测性数据分析

原文出处:strata.oreilly.com  作者: Alex Howard 编译: 陈嘉育  Mike Flowers是纽约市长办公室下政策与战略制定办公室(the Office of Policy and Strategic Planning in the Office of the Mayor of New York City)的负责人。Flowers及其率领的纽约市政府数据分析团队以预测性数据分析为基础,为消防、审计等六十余个政府机构进行风险评估和预测性资源分配,并取得了一些列卓越成果,包括: 巡视员搜寻非法公寓的效率提高了五倍。 易导致消防员受伤或死亡的危险建筑识别率明显提高。 发现售卖水烟店铺的成功率翻一番。 发现“皮包执照”的成功率提高了五倍。 发现配药房的诈骗行为。 预测性数据分析虽能帮助政府更迅速、更准确地将资源分配到最需要的地方,但其有效性取决于其数据的有效性。数据质量牵动着每一个希望基于数据决策的政策制定者——纵使有高级的方法论和算法,政策制定者也将因糟糕的数据而面临麻烦。在此背景下,Flowers和他的团队如何取得上述成就是个有意思的话题。 问题一:Flowers团队使用什么工具完成预测性数据分析? 从人力资本看,Flowers团队中有五名统计学家,Flowers也希望能多招一些经济学出身的人。Flowers还强调,团队成员既要有过硬的学科知识,也要有年轻活跃的头脑,像他们团队中的首席分析师,他被聘用不仅仅是因为拥有数理经济学学位,还因为他是个帅气的棒球手。 从技术手段看,Flowers团队使用的工具十分多样,统计软件有Excel也有SAS的最强版本,编程语言有Python也有SQL. 问题二:Flowers团队能用数据做什么? Flowers强调,他们团队本身并不解决城市中的问题,而是帮助问题识别与问题排序。 比如,纽约市每年收到2万到2.5万份非法改造住房的投诉。什么是非法改造住房呢?假设一间公寓或独栋明明只适合六人居住,户主却在里面塞了60人,这就是非法改造住房,它构成火灾、犯罪、传染病等方面的公共安全隐患。建筑署雇用了大约200名巡视员来处理非法改造住房的投诉,FLowers团队则帮助评判这些投诉的优先级别。下以减少结构性火灾为例说明Flowers团队的工作。Flowers团队综合来自19个政府机构的数据,为纽约市90万座建筑体建立了档案。他们从档案中发现与火灾呈高相关的东西后,将与政府机构的巡查员取得联系,以检验他们的发现与巡查员获得的第一手信息是否一致。在此基础上,Flowers 团队对每一份投诉进行分析,从中识别出火灾风险属于最严重的5%的房屋并反馈给有关巡查员。在过去,建筑署收到投诉后出人去检视房屋,只有13%的房屋确实属于高危房屋。而在Flowers团队反馈给建筑署的投诉中,70~80%的房屋确实属于高危房屋,相当于建筑署巡视员的检视效率提高了五倍,这让建筑署很开心。消防署也同样感到开心,因为Flowers团队这部分信息中涉及的房屋,造成消防员死伤的可能是普通房屋的15至17倍,识别出对消防员高危的房屋后有利于保护消防员生命安全。 问题三:建筑巡视之外还有哪些项目呢? Flowers团队做的很多项目本身是互补的,比如稽核香烟税与检查商业执照的项目利用了同一数据。巡视员反馈的商业企业违规记录,既可用作商业企业是否违反香烟税相关条例的预测指标,也可用来识别“皮包执照”。违规多的商业企业很可能被消费者事务署吊销执照,为了避免被吊销执照,商业企业会找个人给他5000美元,借他的名义申请一个执照,这就是所谓的“皮包执照”。“皮包执照”的现象屡见不鲜,因为消费者事务署的管辖范围太大而巡查员数量太少。Flowers团队基于商业企业违规记录告诉消费者事务署应该检查哪些商业企业,节约消费者事务署执行检查中产生的成本。 Flowers团队的另一个项目则通过羟考酮(一种处方药,是列入了联合国《1961年麻醉品单一公约》的管制的品种——译者注)的医疗补助返点分布数据,对21家享受了60%以上医疗补助返点的配药房实施重点监察,发现其中20家确实存在欺诈行为。另外Flowers还为商业检点委员会(the Business Integrity Commission)监视私有的垃圾处理公司,利用消费事务署、健康署、财政署等部门的数据检查这些公司是否非法倾倒垃圾。 问题四:Flowers团队是靠什么思路发现这些规律的? 就像夏洛克汇总各路零星线索破案一样,Flowers团队将各个政府机构的数据汇总在一起,运用列联表等探寻变量之间隐蔽的关系,进而发现需要某一特定机构解决的问题。 问题五: Flowers 团队如何保证数据质量? 比较基础的数据清理是技术上的数据清理,如处理同一名字的不同拼写版本。二是优化数据获取顺序、多样化数据来源。比如消费事务署担心某个人使用了“皮包执照”,此人刚好也是财政署计划的审计对象。我们会先让消费事务署的人去检查,因为他们只需要进店看一看就能完成检查。如果确实发现了问题,那我们就更有信心建议财政署执行审计;如果没有发现问题,那也不会(像审计一样)造成开支的浪费,因为这本来就是消费事务署的日常工作。 问题六:纽约市的大量监管数据是否放入了公众可见的那个数据仓库? Flowers目前正和纽约市信息技术与通信部门(the New York City Department of […]

Read more

开放数据的影响

此处原文来自阳光基金会,译者:高丰 在阳光基金会,我们坚信访问政府数据以及决策过程是民主的基本原则。开放数据则是这种访问的重要方式之一。在这里,我们探索一些开放数据对社区建设产生不同影响的例子供大家参考。 创造透明化 America Decoded — 州政府和市政府将他们的法律文件开放,使得法律和法令能够被更广泛得共享以及整合进应用。 The Money Maps — 这个由 Axis Philly 制作的交互地图可视化了宾夕法尼亚州官员接受的竞选资金,显示了谁接受了谁的竞选资助。 Checkbook NYC 2.0 – 这个透明化工具允许任何人探索纽约市政府开放的每日支出数据。 Second City Zoning — 可视化芝加哥的土地规划区条例,使得使用者能更清晰了解芝加哥市不同地区的土地使用限制。 赋权增能 The Detroit Ledger — 底特律市收到的项目资金都能在这个网站上搜索查询到 RecordTrac — 这个工具使政府和公众能够追踪公共记录的申请。这一信息使得信息申请者得以在申请被拖延时更好地向政府问责,同时也能反映出哪些机构在处理申请上做的很好。 San Francisco Crimespotting Map — 除了简单可视化罪案发生的地点,这个地图也允许用户区探索在哪个时段罪案更可能发生。 增进效率,节省开支 “芝加哥市更好的路面工程” — 2013年11月的一报道指出,芝加哥市的数据开放使得路面工程得以更好协调。 纽约市绩效报告 — 纽约市政府监控并共享各部门的绩效统计数据。这些信息能够被用于增进效率,节省开支。 “Out on a limb, for data” — DataKind […]

Read more

纽约开放数据万花筒

此处原文来自 NYC OPENDATA 博客,原图由 Ben Wellington 创作并刊载于 NYC OPENDATA,译者 黄瑢遥 越来越多的城市正在加入到开放数据社群中,享有世界之都盛誉的纽约自然也不甘落后。在前市长布隆伯格的推动下,纽约人自己的开放数据平台NYC OpenData上线,公布了上百个数据集、地图集和文档库。不仅如此,为鼓励人们使用开放数据,纽约市还设立了自己的Tumblr,以展示一些让纽约客觉得新鲜、有趣,引人思考的数据可视化作品。下面就为大家介绍两个例子。 这幅可视化作品出自Ben Wellington之手。他是一位教师,在位于纽约布鲁克林区的Pratt城市与区域规划项目教授统计课程。利用发布在NYC OpenData 平台上的卫生局月度垃圾处理量数据集,作品直观地展示了纽约五个区(Borough)的垃圾回收率。 Ben的另一幅作品将纽约街道名称词典和GIS(地理信息系统)基础街道地图结合起来,为大家展示了纽约不同街道后缀的分布状况和命名规律。他分析道:曼哈顿岛基本是由streets组成的……相比之下,布朗克斯(Bronx)有最多的avenues,皇后区(Queens)roads的比例最大,而斯塔顿岛(Staten Island)则拥有最多的lanes和courts,这与其市郊的格局相对应。 除了在自己的作品中使用 NYC OpenData 之外,Ben 也让开放数据进入了课堂。他鼓励学生探索和分析与自身兴趣相关的开放数据,包括交通、健康、教育等。 链接: 城市垃圾回收区域模式-Ben 纽约街道命名分布-Ben

Read more

登录

最近论坛回复

最新评论