清研智谈 | 纸质档案数字化:助推档案管理的新趋势
纸质档案数字化是指采用扫描仪等设备对纸质档案进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像,并按照纸质档案的内在联系,建立起目录数据与数字图像关联关系的处理过程。目前大部分档案保管机构库藏档案载体仍然是以纸质为主,传统载体的档案占用的存储空间大,保管成本高,使用过程中易磨损,并且检索效率低,难以满足人们日渐增强的对信息资源的需求。因此,对纸质档案进行数字化处理的目的是更好地保护档案原件,提高档案服务效率,方便利用者使用档案。
纸质档案数字化的意义
与传统的档案服务模式相比,在档案检索、提供利用、保护原件方面,数字化档案都有着得天独厚的条件。具体来讲,纸质档案数字化有如下好处。
有利于档案信息的传输,实现档案信息共享
数字化档案信息可以通过网络等现代技术实现异地的远程利用,为需求者提供方便快捷的档案信息服务。档案数字化能改善档案信息的传输方式,使档案的利用不再受“孤本”的限制,一份文件可以同时提供给所有需要它的人共享。档案信息的利用时效性和档案内在价值可以得到充分的释放和体现,可以实现档案工作价值的增值。
有利于保护档案原件
档案的唯一性、原始性和凭证性决定了档案是真实记录历史的重要载体,因此保护原始档案安全和可用性是档案工作的重要内容之一,档案数字化之后,档案利用方式从利用原件变成主要使用档案数字副本,档案原件从而得到了更加充分和有效的保护。档案数字副本可以异地保存,这样可使这些档案在遇到突发性灾害时避免遭到毁灭性破坏。
有利于档案利用者方便快捷地查阅档案
档案工作的最终目的除保存历史记录以外主要是为了利用,这是档案工作生存发展的基础。传统档案利用工作是档案工作者根据利用需求,结合档案整理的相关规则和检索方法,以及档案排架规则调出原始档案提供利用,数字化后档案信息的利用工作转变成由授权档案利用者,根据自身的调档需求,组建检索关键词在网络上查阅档案信息,减轻了档案工作者的劳动强度,方便了档案利用者的查阅,提高了利用工作的效率。
有利于档案信息资源的开发利用
利用档案数字化信息可以高效开展档案信息资源的开发利用工作。通过网络终端随时查阅、整合、编辑丰富的档案信息可以大大提高档案信息利用效率。数字化信息,不仅为档案管理人员开展编研工作提供了方便,还为档案利用者提供了根据业务和专业需要开发利用档案信息的途径。
有利于电子政务和无纸化办公
随着国家电子政务的不断发展和推广,无纸化办公正被普遍应用,根据国家对档案信息化建设的进一步规范,在相关法律允许的范围内,纸制档案的数字副本可替代原件直接用于电子政务,与电子档案共同组成数字档案信息库,为电子政务和无纸化办公创造条件。
纸质档案数字化工作流程
具体来讲,纸质档案数字化工作包括数字化前处理、数据采集、数据处理、数据存储和数字化后处理五个基本环节。数字化加工的流程见图如下:
纸质档案数字化前处理
1.档案出库
纸质档案数字化加工之前,档案保管机构还要将档案信息资源进行有序整理,就是要按照档案信息化建设的要求,在进行数字转换之前,对档案信息普遍、全面地进行一次鉴定和加工整理。
2.档案的交接
档案保管机构将需数字化处理的档案移交给业务承包方,承包方应当对照档案保管机构提供的档案目录认真清点核对档案的卷数,在档案保管机构和承包方确认无误的情况下,签订《纸质档案数字化原件交付单》。
纸质档案数字化数据采集
1. 设备选择
档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。
扫描仪是进行纸质档案数字化工作所必需的设备,常用的纸质档案数字化设备有平板扫描仪、高速扫描仪、宽幅扫描仪、零边距扫描仪、数码翻拍仪等。不同的设备有不同的使用范围。
2. 参数设置
在扫描前使用专用硬件设备交验显示器参数,使之与扫描仪的对应参数保持一致,防止扫描结果在显示器上显示时产生亮度和色彩的偏差。
3.数字化操作
将纸质档案进行扫描,转化为电子文件,采用专业扫描仪或者数码翻拍仪等设备完成,保证扫描质量和准确度。“扫描”操作完成后,接下来为图像文件命名就可以按设置好的文件格式进行存储。
纸质档案数字化数据处理
1.图像处理
将扫描图像与档案原件进行对照,如图像模糊,应当重扫。对有偏斜等问题的图像,应采用计算机自动处理或人工处理方式进行优化。
纠偏:对出现偏斜(如图像倾斜度大于1度) 的图像应进行纠偏处理(也可批量纠偏),以达到视觉上基本不感觉偏斜为准。对方向不正确、不符合阅读习惯的数字图像应进行旋转还原。
去污:对图像页面中出现影响图像质量的杂质,如在扫描过程中产生的黑点、黑线、黑框、黑边等应进行去污处理,以底色填充。对原件边上有遮字的图像要放出白边。在处理过程中,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。
图像拼接:对大幅面纸质档案进行分幅扫描时,相邻图像之间应留有足够的重叠,并且建议采用标板、标尺等方式明确说明分幅方法、起止页、原件大小等信息;分幅扫描形成的多幅数字图像,后期可通过应用软件自动拼接的方式进行拼接处理,合并为一个完整的图像。
裁边处理:采用白色做底色的彩色模式扫描的图像,应进行拉框或裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
图像优化:对字迹褪变的文件,在扫描后应该采用图像处理技术,调整亮度和对比度,使字迹变得清晰。
OCR:采用OCR技术进行字符识别,将以图像方式表达的文字信息,转换成以字符方式表达的文字信息。
2.图像质量检查
扫描完毕后应及时进行图像数据质量检查,发现图像不符合质量要求时,应重新进行处理。发现扫描、格式转换有问题时,应及时整改。对扫描或转换后图像质量不理想的,应对相应参数进行调整,如亮度、对比度、饱和度、色阶、色彩平衡等,调整所选择的参数类型和数值,以调整后的图像不失真、效果最清晰完整为准。
纸质档案数字化数据存储
1.存储格式的选择
纸质档案数字化成果,包括有档案内容数据和档案目录数据两大类。内容数据存储格式的选择,应该从保真性强、兼容性好、存储容量小这几个方面进行综合考量,纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式。纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为OFD、PDF等其他格式。正常情况下多选择TIF、JPEG、PDF和OFD四种文件格式进行保存。
2.文件存储的组织
文件存储应将一卷或一件档案中的单页图像文件紧密地组合在一起。利用文件夹组织方式,可以将多页图像文件存储在以该档号命名的文件夹中,也可以将单页图像文件合并为多页图像文件。
3.目录数据库建立
选择数据库时应考虑建立在计算机环境下,能够有效、准确、完整、安全,并可以上网利用的格式,且此格式可转换为通用数据格式,以便于数据交换。
数据录入应按照档案著录的结果进行文件目录及案卷目录数据的规范输入。此外,还应将纸质档案数字化前处理工作中对纸质档案目录进行修改、补充的备注结果一并录人数据库,形成准确、完整的目录数据。
4.数据挂接
将经过质检的纸质档案数字图像,挂接到档案目录数据库中去,实现目录数据与数字图像的关联,以便于利用者通过档案目录数据库直接调阅档案全文。
纸质档案数字化后处理
1.数字化成果验收
据纸质档案数字化的组织加工方式,对于档案保管机构内部进行数字化加工的,建议档案部门成立专门的验收组对纸质档案数字化成果进行验收,并采用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。
2.档案装订与归还入库
纸质档案数字化工作完成后,对拆除过装订物的档案要进行重新装订,恢复档案原貌。数字化加工完毕,对纸质档案进行清点,并重新装订还原成卷或件。清点无误后交还给档案管理部门,按照档案入库要求履行档案入库手续确保档案的完整性。
3.数字化成果移交
验收合格的数字化成果应按照纸质档案数字化工作方案及时移交。移交的数字化成果,应包含三方面内容,即:目录数据、图像数据和OCR识别形成的文件,以及数字化工作中产生的工作文档等。数据移交方式有在线移交和离线移交。
4.数字化成果管理
为确保数据安全,承建方事先应对每一批通过验收的数据进行备份,待所有数据全部通过验收并移交给业主方后,再根据业主要求进行数据存档或存储设备的管理。
纸质档案数字化是政务数字化、信息化转型的重要一环,是提高档案管理效率和安全性的关键举措。数字化档案的长远价值不仅体现在提高效率上,还可以为各行各业提供更广阔的应用空间。在信息化发展的大环境下,纸质档案数字化势在必行,将为未来的工作和生活带来更多便利与效益。
撰稿 | 赵明威 清研集团技术部研究员
编辑 | 陈泽玺
图片 | 网络