为网络内容留存“记忆”
美国密歇根大学本特利历史图书馆(下文简称BHL)的网络内容归档工作自2000年开始,该项工作不仅保存网页,还保存各种网络上的其他资源,如视频网站的流媒体视频、“推特”与“脸书”等社交媒体的内容。
档案工作者使用专用软件工具保存特定网址(域名)网站的全部或部分内容,主要包括网页、图片、视频等,并在档案馆中“还原重建”这些网站供用户浏览。随后,用户可以通过检索工具、档案目录查找、浏览归档后的网络内容。截至2015年,BHL已经对1500多个网站进行了归档,拥有3.8TB(太字节)的网络内容归档数据。
为何要进行网络内容存档?
新的信息来源。当前,网络尤其是社交媒体承担了社会生活与社会活动中越来越多的功能,很多重要的活动、事件都发生在网上。同时,大量的文件直接以数字形式发布,而不再拥有纸质实体。因此,对网络内容进行归档不仅能补充馆藏,还可以实时归档处于正在发生的各种话题、事件。
对归档数据的应用。被归档的网络内容有很多用处:重要的历史信息的来源;为很多事件提供了证据;是许多研究与分析的原始材料,如网络与网站分析研究、数据挖掘、自然语言处理等。
网络内容归档的实践历程
2000年初,BHL工作人员使用手工方式归档,通过常用网站下载软件(如Httrack、Teleport Pro)将网站离线保存,并刻录至光盘。利用者在查阅数据时需要来馆浏览光盘。同时,为了搞清网络内容的变化趋势,BHL还定期对密歇根大学域名下所有网站进行调查。
为了更高效地完成工作,BHL将精力集中到对网站内容的选择、鉴定、归档、著录上。因此,在2000年10月购买了加州数字图书馆提供的技术服务。服务内容包括对系统、IT基础架构的维护,及索引归档数据、维护数据访问接口等。
由于档案馆的资源有限,不可能对所有网络内容进行归档,因此网络内容归档工作需要一个指导性的归档策略。目前,遵循以下3个基本的原则:反映机构存在的使命与任务;对现有馆藏起到发展、补缺的作用,依据馆藏建设的优先级对不同内容进行归档;获取独特、有意义,并且定期更新的网络内容。
网站归档的第一步是使用“网络爬虫”(又称“网络蜘蛛”)软件获取选中的网络内容,BHL使用的是Heritrix(一个开源、免费、可扩展的网络爬虫软件)。BHL的工作人员指定好起始的“种子网址”并设置好采集范围(域名、时间)后,“网络爬虫”便会从这个网址开始,顺着网页上的超链接在互联网内“爬行”,并下载符合要求的网页内容。准确合理地设置“网络爬虫”的“爬行”参数是有效、全面、及时采集网络内容的关键。而这取决于档案工作人员对于网络内容的鉴定、对于目标站点目录结构的理解。
此外,对于各种特殊的在线内容,尤其是社交媒体、视频网站上的流媒体视频等内容,BHL使用多种不同的工具软件进行采集。
BHL会将采集到的内容数据与采集行为产生的元数据(超文本传输协议的请求与相应信息)一起被打包存入WARC格式的文件中,将多种不同的数字资源封装进同一个“档案信息包”文件。
最后,利用者会通过专用浏览器浏览这些数据。这种浏览器支持网络技术发展过程中出现过的各种HTML标准,可以正确展现20年前使用的“过气”的技术、标准开发的网站。
在网络内容数据归档后,档案馆需要根据网络内容的价值,信息优先级按照不同的频率、深入程度定期进行质量检查,检测被归档的数据的完整性,并检查已被归档网站的展现效果、功能是否正常。BHL会记录质检的全过程与发现的问题,并在以后的检测中追踪这些问题。
通过定期的质量检查,BHL可以及时了解某一网站在各方面的变化,并对内容采集工作及时做出调整,以便于正常、完整地归档该网站。
在实际操作中,BHL拥有基本的质量检测工具软件,可以检测出一些常见问题,并生成检测报告。报告会列出用户需要注意的、可能出现问题的地方。常见问题包括:采集归档的某个网站内容过少;网络内容采集失败;采集行为达到时间限制;种子网址被重新定向。
在网络内容的采集、归档过程中,经常会出现各种技术问题。BHL处理问题流程是:查清问题原因;评估问题的影响;尝试用各种手段解决问题或换种方法绕过问题。
与其他档案一样,归档的网络内容也需要被准确著录。档案馆要为用户提供访问这些数据的入口。BHL使用与其他类型档案一致、全机构统一的元数据标准对网络内容数据进行著录。对于字段的定义、归档网站的命名、著录描述都有统一的标准,著录时使用标准的词汇表,并将网络内容归档的元数据整合到了馆藏档案目录、检索工具、“深蓝”在线网络数据资源库中。用户通过上述3种工具都可以查询、浏览归档的网站数据。
在BHL,有专人负责网络内容归档工作。同时,网络内容归档工作不是孤立的,而是与整个机构的工作有机联系。BHL的所有员工都需要理解网络内容归档工作在整个机构中的定位及所起的作用。在开展网络内容归档工作时,需要其他部门、其他员工的协助。例如,在著录时需要咨询元数据及著录工作的负责人,与利用部门合作确保用户可正常利用归档的数据,与档案专家一起鉴定在线内容是否有归档价值。
建立网络资源保存体系的启示
网络信息资源是国家数字遗产的一部分,在学术研究、社会管理、商业应用、国家战略等方面有较高价值,失去它会造成社会记忆的巨大损失。因此,档案工作者应从现在开始进行网络资源保存体系建设,并将网络信息资源的保存上升到国家战略的层面,在资金和政策上给予相应的支持。
立法保障。网络内容采集与归档涉及知识产权、用户个人隐私、网站商业模式等问题,易导致纠纷。因此,需通过立法来理顺网络信息的使用方(利用者)、采集保存方(档案机构)、提供方(网站或作者等)这三方主体之间的关系,确定三方的权利与义务,协调好三者的利益,立法界定应强制归档及不得归档的内容。
借助社会资源。资金与技术力量都比较有限的档案机构应充分借助社会资源。归档的网络内容对于企业,尤其是互联网企业,有较高的商业价值,可以作为大数据分析、数据挖掘的原始数据,企业可以用这些数据分析用户、市场、竞争对手等。因此,档案机构可采取灵活措施,与企业分享归档数据,同时,企业为档案馆的网络归档工作提供资金与技术支持。
原载于《中国档案报》2015年11月16日 总第2837期 第三版