数字档案管理员:保护公共数据免受擦除
从那以后的三十年中 酿造很好 求助非营利组织 互联网 档案 Wayback机器,它规模扩大到包括政府网站和数据集(其中许多对于工程和科学社区至关重要的)。美国政府机构等 国家科学基金会,,,, 能源部, 和 NASA 是研究数据,技术规格和标准文档的关键来源,几乎每个领域 IEEE光谱观众的作品 – AI和计算机科学,生物医学设备, 力量和能量,,,, 半导体,电信……列表还在继续。 访问该政府数据直接影响实验的可重复性,模型的验证以及学术记录的完整性。 那么,如果整个数据集消失了,会发生什么?除其他外,它可能使基于该基础的多年研究无效。 直到最近,数据的批发删除一直很少。在 美国,总统过渡通常涉及对政府网站的一些更改,以反映新的政策优先事项。 9/11之后,乔治·W·布什政府撤职了”数百万个字节出于安全原因以及数百个政府站点的信息 国防部 文件和“数万个” 联邦能源监管委员会 文件。 这 奥巴马 拜登政府也对政府网站进行了更改,但没有大规模删除网页或数据集。实际上,奥巴马在2009年通过启动扩大了公众对政府数据的访问 data.gov,其任务的一部分是“释放政府开放数据的权力,以告知公共和政策制定者的决定。” 在唐纳德·J·特朗普总统的第一任期期间,环境数据与治理计划的研究人员 成立 一些政府站点变得无法访问,并且“气候变化”一词从几个政府网页中清除。 但是看门狗小组大多没有观察到彻底的数据破坏。 光谱 助理编辑Gwendolyn Rak。 访问政府数据直接影响实验的可重复性,模型的验证以及学术记录的完整性。 第二学期是不同的。 2月,特朗普宣誓就职几周后, 《纽约时报》 报告 他的政府删除了8,000多个网页, 数据库。此后,许多页面都重新出现了,但是一些已修复的页面和文件发生了变化,包括删除 诸如“气候变化”(再次)和“清洁能源”之类的术语,格里斯特 报告。这些举动面临着多个法院的挑战。例如,2月11日,一名联邦法官下令恢复属于疾病控制和预防中心的网页和数据集以及食品和药物管理局的公众访问。 在我们的四月 问题,rak 报告 关于保护公众获取信息的努力。除了正在进行的工作 互联网档案,她描述了档案管理员如何在 哈佛法学院的图书馆创新实验室 收集了16-替比特的副本 data.gov归档 其中包括311,000多个公共数据集。复制的档案馆每天都会更新,并通过自动查询来启动新数据 编程 […]
互联网档案馆,哈佛图书馆节省危险的联邦数据
不久之后 特朗普政府 上任 美国 1月下旬,多个政府网站上有8,000多页 数据库 被拆除, 纽约时报 成立。尽管现在已经恢复了其中的许多,但例如,数千页被清除了有关性别和多样性倡议的参考,以及其他包括美国国际发展机构(USAID)网站在内的网站(包括美国国际开发署(USAID)的网站)仍然保持下降。 到2月11日, 联邦法官裁定 政府机构必须恢复公众访问疾病控制与预防中心维护的页面和数据集(CDC)和食品药品管理局(FDA)。虽然许多科学家在恐慌中逃到了在线档案中,但具有讽刺意味的是他司法部辩称,提起案件的医师没有受到伤害,因为删除的信息是 在互联网档案中可用‘ Wayback机器。作为回应,联邦法官 写,“法院没有被说服”,并指出用户必须知道存档页面的原始URL才能查看它。 政府的法律论点“有点有趣” 马克·格雷厄姆,主任 Wayback机器,他认为法官的裁决是“ Apropos”。 在过去的几周中, 互联网 档案和其他档案网站已因保留政府数据库和网站而受到关注。但是这些项目已经进行了多年。这 互联网档案Graham说,例如,是一家致力于在30年前提供通用知识访问的非营利组织,现在每天记录了超过十亿个URL。 自2008年以来,Internet Archive还托管了一份可访问的副本 术语Web档案结束,一项记录的合作将在管理前后更改为联邦政府站点。在最近的系列中,它已经存档了500多个材料。 互补的爬网 格雷厄姆说,互联网档案的强度是规模。 “我们经常可以 [preserve] 事情很快,大规模。但是我们没有深刻的分析经验。”同时,像 环境数据和治理计划 和 卫生保健记者协会 为活动家和学者提供帮助,以识别和记录变化。 图书馆创新实验室 哈佛大学 法学院也加入了努力 它的data.gov档案这是一个16 TB的集合,其中包括311,000多个公共数据集,并每天使用新数据进行更新。该项目始于2024年底,当时图书馆意识到 数据集 在其他网络爬网中通常会错过 杰克·库什曼,一位软件工程师兼图书馆创新实验室主任。 “您可能会错过任何必须与之互动的东西 JavaScript 或带有按钮或表格。” – 杰克·库什曼(Jack Cushman),图书馆创新实验室 典型的爬网毫不费力地捕获基本 html,PDF或CSV文件。但是,由数据库驱动的归档交互式Web服务构成了挑战。不可能归档一个网站 亚马逊例如,格雷厄姆说。 图书馆创新实验室(LIL)正在归档的数据集同样棘手。 “如果您正在执行网络爬网,而只是单击链接到链接,就像术语档案的结尾一样,您可能会错过任何必须与JavaScript互动的地方或使用按钮或表格,您必须询问要获得许可,然后注册或下载某些内容。” Cushman解释说。 […]
