通知公告
志鉴研究
浅谈地方志资源数字化
[作者:赵莉莉发布时间:2018-10-31 11:12来源:昆明史志]

浅谈地方志资源数字化


赵莉莉



  地方志的记载丰富详实,“是中华民族特有的文化瑰宝,作为文明传承的载体之一。记述一个地区自然、经济、政治、社会、文化等方面情况及其历史沿革的综合文献。在我国浩瀚如海的文化典籍中,占有很大比重,为我们研究祖国的各地历史、地理、物产资源、风土人情等提供了很多宝贵材料。”[1]“我国很多重大的科研成果都得益于地方志资料。地方志是一座内容很丰富的文献宝库,具有很高的开发利用和应用前景。”[2]现存古今地方志卷帙浩繁、种类繁多、内容丰富,享有“地方百科全书”的美誉。

  过去,因为条件的限制,特别是技术手段的落后,地方志文献资源难以广泛传播。随着近年来电子信息技术的发展,依托新技术的古籍文献数字化工作开始兴起,为地方志资源的传播、开发和利用提供新模式,“方志资源数字化既是今天经济文化建设、学术研究的需要,也是时代对方志整理工作的必然要求。”[3]然而现阶段,相关古籍管理机构对于方志资源数字化整个流程还未形成统一标准和规范,仍有诸多方面的内容需要完善。

  一、地方志标引著录

  地方志标引著录是数据库检索功能的依据,可以提高文献的查询、利用效率,进一步增强地方书的科学性,提服务水平。地方志标引著录需要结合方志学、方志目录学、方志书籍本身的特点进行,同时也需要有统一的方志著录标准和格式。

  2004年5月,科技部科技基础工作专项资金重大项目《我国数字图书馆标准规范建设》课题组的徐周亚等发布《地方志描述元数据规范》和《地方志描述元数据著录规则》标准草案。《地方志描述元数据著录规则》著录的项目有:名称、主要责任者、主题、描述、出版者、其他责任者、日期、类型、格式、标识符、来源、语种、相关资源、时空范围、权限、版本、载体形态、收藏历史、馆藏信息、体例、方志类型、一般附注、复本记录,共计23项元数据描述内容。《地方志描述元数据规范》定义了15个核心元素,4个古文献系列资源类型核心元素和4个个别元素。

  地方志数字化著录,包括古籍方志和新方志的著录。但目前所颁布的《地方志描述元数据规范》和《地方志描述元数据著录规则》没有对古籍方志和新方志的的元数据著录加以区分,新方志虽然在体例、内容等方面与古籍方志有着延续性,也存在较大差别。如随着社会发展和多样化新方志的内容和种类更加的丰富,新方志的目录也更加的细化明晰,章节、内容条目都有页标示,著录时都需要认真记录,以便后期编辑、查询和使用。对于古籍方志和新方志的著录应该根据其不同特点制定与之相应描述和著录的规范、规则。

  地方志长期以来被看作“博物之书”,涉及面广、信息量大,想要有效地利用它,必须借助于方志目录学。如果对馆藏新旧方志不进行整理编目或目录编得不科学,势必会影响日常管理和方志资源的开发利用。[4]数字化中对地方志进行科学的分类、准确详细的标引著录,能让我们在最短的时间内获取最大的信息量,提高资料查询效率,有利于扩展方志研究的深度和广度。

  虽然目前所具有的地方志描述和著录的规范、规则存在不足,但对地方志数字化标引著录具有重要的指导意义,经不断的实践反馈和修改完善并推广执行,地方志数字化著录将会实现统一、标准及系统化,更好的提供共享及服务。

  二、地方志数字化图像采集

地方志书由纸质文献载体形式转换为具备高效、准确、快捷、便利以及节约等多种优势的电子文献,首先必须对其纸质文献进行扫描采集图像。为了更好的保护地方志文献特别是古籍方志,在地方志扫描图像采集中我们需要专业的数字化设备和专业的技术人员进行扫描的数字化工作,对于严重脆化、破损、虫蛀及夹字等情况书籍也应该采取与之相适宜的解决方案。

  1.古籍方志图像采集

  由于年代久远,受人为因素和自然因素影响,部分古籍方志存在纸张风化粉碎、残破、变形、霉变等不同程度的损坏,甚至破旧不堪,因此保护与利用的矛盾越来越突出,而数字化是目前解决这一矛盾的最有效方式。

  古籍方志保存时间长久,纸质易受高温影响,需用冷光光源扫描仪扫描,以保证扫描影像的品质的同时,使得在扫描古籍时不会由于温度过高对善本产生不良影响。对于残破、虫蛀等较为严重的古籍方志需要修复后再扫描,以防在数字化扫描中加重对古籍方志的损坏。而部分由于纸质较薄出现透字情况,一般的处理方法是以“衬纸”的方式把两个半页隔开,从而杜绝透字。部分方志古籍由于装订线距离板框太近,有时甚至重合,造成夹字现象,往往要用拆书来解决,扫描完成需要及时装订还原。同时,还有部分古籍幅面较大,或书籍里夹有地图等大幅页面,超出扫描仪扫描范围,需要将大幅面古籍进行分段扫描,最后使用软件进行无缝拼接处理,形成与原始古籍页面完整还原的图像。

  数字化扫描既能保存书籍原貌,又有利于便捷传播,“已成为解决古籍再生保护性的最有效手段,在进行数字化扫描时,需按照规范要求操作,妥善处理好透字、拆书、还原修复、图像处理等问题,加强专业人员业务培训。”[5]

  2.新方志图像采集

  “新方志品种齐全,数量众多,系统完备,方志文献的‘功用’已经不再仅局限于‘资治、教化、存史’三个方面,而是成了中国政治经济发展必不可少的国情和地情资源宝库,能够促进历史学、社会学、法学、地理学、生物学等学科的发展,具有非常重要的意义。”[6]加快新方志数字化,推广使用是当前地方志的重要工作。

  新方志成书距今时间短,一般保存的书况都比较完好,较少出现虫蛀、破损及脆化等情况。但新方志的装书形式与古籍方志不同,都是采用平装形式,以一页双面印刷,这样的书籍随着时间的推移,出现破损、虫蛀等问题时修复难度更大。因而现在对其进行数字化扫描,不仅有助于新方志的开发使用,更有利于新方志的保存。

  数字化扫描完成后需要对采集图像进行纠偏、影像拼接等处理,要求页面端正。基本原则是最大程度保持文献资料的原始性。

  目前,数字图像采集输出储存的格式不统一。“有常见的txt、doc、pdf等,也有chm、hlp、exe、xml等较少见的格式。这些不同格式文件格式,往往都需要各自专门的阅读器才能进行浏览,相互之间难以兼容。”[7]因而,我们在做好地方志扫描图像采集的同时,需要统一输出储存格式,或不同格式间转换,以实现跨平台间的资源共享。

  三、数据库共享平台建设

  数据库模式是现在文献资源储存、传输最便捷有效的方式,“应用于地方志系统有利于有效地开发、利用地方志中的文献信息资源,有利于提高人们对地方志的利用,有利于促进社会经济、文化科学的发展。”[8]

  1.数据库建设

  目前国内文献数据库建设主要有三种模式,分别为图像全文数据库、文本全文数据库、图像加文本的图文数据库,三种模式各有优劣。

  图像全文数据库是将书页进行原文图像扫描,并将扫描图像进行存储,通过网络为读者提供文献图像信息服务。图像全文数据库的优势是:技术实现容易,运行成本低廉,能够忠实地长期保存古籍文献原貌,同时能够快速传播,便于使用。其缺点是:占据空间大,只能根据标引著录的信息如题目、作者、地名、年代等限制检索,而不能进行全文检索。

  文本数据库,是指将文献内容转换成文本字符的形式,一是通过人工录入,二是经扫描成图像后用软件进行识别,再将录入或识别的文字进行存储从而为读者提供全文阅读或者全文检索服务。文本数据库的优势:存储空间小,可以进行多角度、多范围的检索、排序、分析数据,并可以编辑,使用起来非常方便;其缺点是:文字录入难度较大,开发成本高,不能保持古籍原貌。

  图文数据库是图像版与文字版的结合,可以实现全文检索、文本与图像相互对照,研究者可根据需要随时参考原文图像。图文数据库是最理想的数字化文献开发模式,但其投入也相对较多。

  2.地方志数据库建设

  对地方志数据库而言,越是理想的数据库模式就越高效、准确、快捷和便利。然而,方志数据库的建设一般还需根据馆藏单位的财力、人力等具体情况而决定,循序渐进地开发建设。

  古籍方志数据库建设根据现实条件逐渐由图像全文数据库向文本数据库发展,进而递进为图文数据库的系统开发建设。对于新方志而言,应该以图文数据的模式进行建设。新方志书籍中极少的繁、异字体,其文本形式可以经过扫描后通过软件识别图像文字获取,且错误率低。新方志的图文数据库不宜图像与文本分开,而适宜合一形式,如采取双层PDF等格式。

  现在信息化、网络化延伸到生活的每一个角落,地方志工作的发展必须适应信息时代的挑战,地方志数据库建设势在必行。地方志数据库建设需要满足资料在网络上的实时共享、检索方便、更新及时的要求,充分发挥地方志的资源优势。

  四、地方志资源数字化的价值

  随着地方志资源不断的深入研究和普及、数字化的应时而生,对推动地方志资源的保存、开发及使用等具有重要的价值。

  1.地方志资源数字化,有利于对方志资源进行及时有效的保存与保护

  现存的方志资源,尤其是年代久远的古籍方志,需要进行有效地保护。利用现代网络信息技术对这些方志文本进行数字化整理,就是最大限度的还原其主要内容,用电子文本的方式全面展示,相关方志馆藏单位可以对数字化的地方志资料进行永久保存。在此基础上,今后研究者可直接使用网络电子版本进行阅读整理,从而避免在使用纸质文献时所造成的损耗。保存与保护文献,是地方志资源数字化的基本价值。

  2.数字化的地方志资源,更有助于学者和研究者研读使用,从而为地方志文献的流传创造了条件

  数字化地方志文献使用起来更为简单便捷,读者不必到专门的馆藏机构去寻访,可以通过相应的网络平台直接阅读学习,从整体上减少了研究方志的成本,同时,也使得更多的读者可以通过数字地方志共享平台阅览相关资料。这既满足了学者和研究者的研读需求,同时也便于方志资料的广泛传播,是地方志资源数字化的重要价值。

  3.伴随着数字化工作的全面开展,为地方志研究提供了新的思路

  数字化应用于地方志资源的整理与研究,便于编纂资料的收集与整理。对于研究者,利用数字化的地方志资源,可及时有效地搜集、比对、解析相关数据与信息,减少了原先查阅、分析资料所消耗的各种成本。与此同时,地方志资源数字化工作的开展,也有利于今后方志工作编纂适应网络化、信息化、数字化的发展模式,为提高工作效率,完善工作内容创造了条件。改进旧有的方式,开展更具科技功效的工作新路径,是方志数字化工作的创新价值。

  21世纪是大数据的时代,地方志的工作须与之相适应,信息化、网络化将会是今后地方志工作的主流,即“采用科学、快捷、高效的方式,利用信息化、网络化的快捷优势,发挥志书最大的实用功效,是今后修志工作者的新要求,也是时代的迫切需要。”[9]因此,地方志资源数字化不应该仅仅是地方志书的保存的新方式,更应该是不断的深入研究和挖掘,以高科技的方式开发利用好地方志资源,实现地方志资源共享,满足广大人民的文化需求,促进经济文化的发展需要。

  注释:

  [1] 仓修良著:《方志学通论》第1页,齐鲁书社,1990。

  [2] 钱晓琴:《地方志计算机数据库建设初探》,见《伊犁教育学院学报》2003年第3期第112页。

  [3] 王宪洪:《对北京方志数字化的思考》,见《中国地方志》2008年第5期第10页。

  [4] 巴兆祥:《方志目录学刍议》,见《中国地方志》2003年第3期第6页。

  [5] 潘星耀:《浅谈古籍数字化扫描工作需注意的问题》,《新世纪图书馆》,2016年第12期第60页。

  [6] 赵嘉朱:《方志资源知识组织方法研究》,《数字图书馆论坛》,2016年第4期第61页。

  [7] 赵海良:《广西地方志文献数字化标准建设》,《广西地方志》,2015年第4期第28页。

  [8] 钱晓琴:《地方志计算机数据库建设初探》,《伊犁教育学院学报》,2003年第3期第111页。

  [9] 李卫东:《地方志工作信息化网络化建设探讨》,《黑龙江史志》,2007年第9期第17页。

〔作者单位:云南省图书馆〕