特征 这些倡导者希望确保我们的数据不会消失

这些倡导者希望确保我们的数据不会消失

目录:

视频: –®—Ç–Æ—Ä–º! –Í–Æ–Π! –Í–Μ—Ç—Ä–∞ –°–≤–∏—Å—Ç! (十一月 2024)

视频: –®—Ç–Æ—Ä–º! –Í–Æ–Π! –Í–Μ—Ç—Ä–∞ –°–≤–∏—Å—Ç! (十一月 2024)
Anonim

今年五月下旬,也就是美国第45任总统就职五个月后,一群关注新政府对科学和气候变化立场的人迎来了自己的特殊周年纪念。

在达拉斯以北平原的北德克萨斯大学校园不远处,数十个人在Data Rescue Denton会面,以识别和下载联邦气候和环境数据集的副本。 就职典礼前几天,这些黑客马拉松式的聚会受到了广泛关注。 登顿是自一月份以来的第50次此类活动。

起初出于对新政府可能会抹去或模糊气候和其他环境数据的担忧而组织起来,当特朗普白宫的第一个行动之一是从其网站上删除气候变化页面时,数据救助者最担心的事情似乎已经成真。 然后,美国农业部从其网站上删除了动物福利检查报告后,对《 国家地理 信息自由法案》的要求进行了回复,其中包含1, 771页完全精加工的材料。

任何人都可以通过位于data.gov的中央政府开放数据门户访问超过153, 000个联邦数据集。 但这只是存在于政府官僚机构星云中的数据的一小部分,不要管服务器上的数据甚至更小。

斯坦福大学图书馆的联邦政府信息图书馆员吉姆·雅各布斯说:“大约有20%的政府信息可以通过网络访问。” “这是很多不可用的东西。尽管代理商有自己的Wiki和内容管理系统,但您唯一发现其中一部分的是有人对它进行了FOIA。”

可以肯定的是,确实捕获了很多信息,这些信息现在驻留在非政府服务器上。 在数据保护区活动和2016年期末爬网等项目之间,已归档了超过200TB的政府网站和数据。 但是,救援组织者开始意识到,要长期完整地复制TB级政府机构科学数据的零碎工作,就好像要用顶针救出泰坦尼克号一样。

因此,尽管Data Rescue Denton最终成为同类活动中的最后一次有组织的活动之一,但Jacobs在博客中写道,集体的努力促使更广泛的社区共同努力,以使更多的政府数据可发现,可理解和可用。

寻找图书馆

在宾夕法尼亚大学,贝瑟尼·威金(Bethany Wiggin)是宾州环境人文计划的主任,在那里,她一直是数据救援活动的发起者数据保护运动的核心。 她说,现在的重点已经转移到利用国家框架进行长期努力,而不是在本地进行定期发作。

威金说:“我们意识到在各地进行救援数据事件时出现的技能是可以扩展的,”尤其是跨研究图书馆。 “但是这些努力在我们启动之前就已经发生了。DataRefuge的力量在于增强了这些联系;促进了长期存在且进展缓慢的项目;并阐明了它们的重要性。”

Wiggin最近一直在协助带头建立Libraries + Network,这是由研究图书馆,图书馆组织和开放数据小组组成的新兴合作伙伴关系,这些合作伙伴关系被催化来扩大图书馆在保存信息访问方面的传统作用。 参加者包括斯坦福大学研究图书馆,加利福尼亚数字图书馆和Mozilla基金会,以及来自国家档案馆和多个联邦局首席数据官等实体的投入和协作。

例如,一个项目是LOCKSS(“很多副本可以确保物品安全”),Jacobs已经协调了几年。 它基于与具有200年历史的图书馆网络(称为“联邦托存图书馆计划”)相同的原则; 这些图书馆是美国政府印刷局(GPO)的出版物的正式资料库。

相比之下,LOCKSS是该系统的私有数字版本,到目前为止,它由36个图书馆组成,这些图书馆从GPO的合作下收集了出版物。 它是通过广泛的物理分散来保护数字信息免遭删除或篡改的模型。

雅各布斯说:“除非对内容有控制权,否则不能保证保留。” “在过去200年中,使保管图书馆重要和有用的部分原因是,政府中没有人可以编辑文档而无需实际访问1, 500个图书馆并说'是的,在这里更改此页面。'”

LOCKSS软件使用位级别的检查内容缓存,并将其与其他库中保存的内容进行比较,Jacobs表示,该软件可通过修复降级的文件来确保长期保存。

图书馆+网络的另一位合作者约翰·乔达奇(John Chodacki)是加利福尼亚数字图书馆的策展人,该数字信息设施为加利福尼亚大学系统的所有10个校区提供服务。 Chodacki与《科学与社会规范》开发人员Max Ogden和data.gov的首席架构师Philip Ashlock一起工作,表示他们的重点是将data.gov用作两条街道。

他们首先证明,通过搜集data.gov本身的副本并将其放置在外部站点datamirror.org上,并使用监视脚本检查更新,可以大大提高数据救援本身的效率。 然后,Chodacki和合作者也开始研究是否可以通过镜像中的存根页面将镜像中的贡献数据集和元数据馈入到代理机构现有的data.gov工作流中。

根据2013年奥巴马行政命令(该命令要求在data.gov上发布机器可读数据),代理商仍将负责生成该门户网站上列出的记录; Chodacki和Ogden的想法是,众包建议的数据集仅有助于分散工作量。

乔达奇说:“我们不需要复制整个生态系统。” “联邦政府和这些机构处理数据的时间比谈论大数据的嗡嗡声要长得多,而且比其他任何人都健壮得多。”

公私伙伴关系

对于机构如何确定哪些数据集对公众最有价值,然后通过政府门户发布指向其元数据或实际数据集的链接,成本问题是一个显而易见的问题。 国会预算办公室(CBO)针对参议院目前正在审议的《公开政府数据法案》法案的报告,该法案将奥巴马行政命令编成法律,估计其全面实施将在2018年至2021年之间花费200万美元。

国会预算办公室得出结论,以政府资金计算,这实际上并不意味着支出的实际增加。

但是,效率却是另外一个问题,美国国家海洋与大气管理局(National Oceanic and Atmospheric Administration)的Ed Kearns正在与包括Amazon Web Services和Google在内的私人合作伙伴一起进行实验。 NOAA首席数据官Kearns说,提高NOAA数据的公共可用性和使用率是大数据项目的主要目标。

公司确定了他们想要的数据集,而NOAA则将其免费传递给公众。 Kearns说,NOAA可以提供任何服务,但这项为期五年的合作伙伴关系的目标不是将所有NOAA数据都发布到云上,而只是战略上的一部分。

将此类数据集托管在私有公司的云服务上,为80年代风格的FTP访问提供了多个优势,而FTP访问仍然是从联邦机构传输大型数据集的标准。 首先,NOAA的数据集往往是庞大的-该机构监视着地球的海洋,大气,太阳和太空的天气-有时需要数周或数月才能公开发布。

该机构的高分辨率NEXRAD Level-II多普勒雷达档案便是一个例子。 根据美国气象学会5月份发布的一项研究,如果将整个270 TB的NEXRAD归档文件在2015年10月转移给单个客户,则需要540天的时间,成本为203, 310美元。 在NOAA与亚马逊和谷歌合作将其归档到云上之前,从未提供过该归档的完整副本用于外部分析。

随着使用量的增加,该实验还获得了一些有趣的早期结果。 NOAA的天气和天气预报网页已经在政府站点中获得了最高水平的访问量,但是Google最近在BigQuery数据库中集成了一个大小约为gig的气候和天气数据集后,该公司报告提供了1.2 PB的数据集从1月1日到4月30日-远远超过了同期从NOAA服务器访问的时间。

Kearns说:“ Google能够将它向全新的受众开放。”

不只是下雨和季节性温度。 现在,通过大数据合作伙伴可以获得的数据集包括渔业信息,海洋天气以及由IBM托管的目录,其中列出了来自NOAA中心的当前,预报,历史和地理空间数据集。 未来的数据集甚至可能包含有关生态系统和渔业基因组学的信息。

但是通过设计,这种合作关系使合作者可以挑选他们最想要的东西,这带来的风险是,模糊但潜在的高价值数据集不会在白天大放异彩。 Kearns说,现在说什么最终被认为是有价值的还为时过早。

他补充说:“处理这些数据的规模和范围对我们来说是惊人的。” “我们无法想象所有可能的用途。”

在较小的规模上,费城还与一个私人实体合作,发布了公众认为最有用的数据集。 尽管城市的规模比联邦实体提供了更多的日常可操作性,但费城模型代表了一种策略,用于制定尚未发布的数据集的发布策略。

Azavea是一家位于费城的专门从事数据可视化的软件公司,与该市首席信息官Tim Wisniewski合作,开发了该市非营利组织可能会感兴趣的未发布数据集列表。 Wisniewski和Azavea既使用了该城市的在线元数据目录,又使用了市政部门的输入来开发该列表。 然后,Azavea和其他合作伙伴将该列表购物给了费城非营利组织,并发起了OpenDataVote,这是一场公开竞赛,旨在对那些非营利组织提出的使用其首选数据集的项目进行投票。

最近的赢家是教育公益组织MicroSociety提出的一项提案,该提案使用费城学区捐赠者的城市数据来衡量公益组织对学校的影响。

Wisniewski说:“我们可以说这个城市的非营利组织对特定的数据集感兴趣,因为他们可以使用它来做某事,并且有很多人投票支持他们。” “它使我们可以拿出可靠的用例去各部门,而不是说,嘿,仅仅因为发布这些数据。”

旧数据与新数据

但是,即使新的政策和资金指令意味着不再再生成数据本身,即使已经有足够的数据访问权限又会发生什么呢? 安娜·邓金说,这是一个真正的担忧,他曾在奥巴马总统领导下担任环境保护署的首席信息官,现在负责加利福尼亚州圣克拉拉县的IT部门。

邓金说:“人们担心旧数据,但是令我最担心的是,新数据的可用性与以前一样,或者根本没有生成。”

在《 科学 》杂志对2018年联邦预算提案的一项分析中,如果预算按提议通过 , 许多政府机构将实现其研究预算的大幅减少。 美国国立卫生研究院削减大约22%的费用,这笔款项将用于支付研究型大学的费用; NASA的预算要求将取消监测温室气体排放的倡议和其他地球科学计划。 NOAA的气候计划也可以通过类似的削减水平来关闭。

在她任职期间,EPA一直致力于将其数据收集转化为一种工具,任何人都可以使用它来了解周围环境的健康状况以及如何对周围环境做出反应。 空气不好的一天? 不要出去 顺着污染的方式流下来? 让孩子们离开。

邓金补充说:“我的期望是它将向后移动。” “我可能是错的,但是如果你说我们不会提供数据,那么逻辑上的结论就是可以帮助公众的数据集首先也将不可用或不会生成。”

Data Refuge的Wiggin正在进行与该问题相关的讲故事项目,她希望该项目能够激发更多的人要求不断发布数据,并为在整个联邦政府中继续现有的数据收集计划提供支持。 “我们镇上的三个故事”的叙述将描绘出联邦数据在意想不到的地方经常出现的潜在影响,首先是从费城开始,然后是全国其他地方。

威金说:“在进入下一阶段的过程中,数据保护区运动的一个关键部分正在帮助人们了解他们生活中使用的联邦生产数据的广泛用途。” “无论是气候,健康还是公共安全,它仍然是联邦数据。它在社区,市政厅,警务工作,军队中。我们需要记住这些数据的重要性。”

资源:

  • EPA环境数据集网关:环境保护局的元数据门户。
  • 开放数据@ DOE:能源部的开放数据门户。
  • USDA经济研究服务数据门户
  • NOAA大数据资源:链接到承载NOAA生成的数据的大数据合作伙伴的平台页面。
  • 北德克萨斯大学:网络公墓:已停业,过时或关闭的政府网站的存档。
  • 环境数据与治理计划归档项目页面:与发现和归档政府数据相关的工具,代码和应用程​​序。
  • Internet存档Wayback机
  • Internet存档:如何在Wayback机器中保存页面:提名页面进行存档的六种方法。
  • 加州数字图书馆:期末Web存档:从期末抓取中保存的美国政府网站的集合,从2008年至今。
  • FreeGovInfo.info:范围广泛的内容,包括州和联邦级数据门户网站上的信息以及有关开放数据问题的新闻报道的存档。
  • 气候镜报:由志愿者收集的气候数据集。

这个故事首先出现在《 PC Magazine数字版》中。 立即订阅以获取更多原创故事,新闻,评论以及操作方法!

这些倡导者希望确保我们的数据不会消失