电子档案数字化长期保存零基础实操全流程技术指南

一、前置准备:明确标准与工具选型

本指南严格遵循GB/T 18894-2016《电子文件归档与电子档案管理规范》、DA/T 58-2021《电子档案移交接收数据包格式》,采用完全免费、开源的工具,无需付费。

1.1 必备工具清单

  • PDF/A生成工具:LibreOffice 7.5+(用于原生文档转PDF/A)、ImageMagick 7.1+(用于图片转PDF/A),均直接从官网下载安装
    • LibreOffice下载地址:https://www.libreoffice.org/download/download/
    • ImageMagick下载地址:https://imagemagick.org/script/download.phpwindows(Windows版),Linux/macOS可用brew/apt/yum安装
  • 元数据编辑工具:ExifTool 12.6+(免费跨平台元数据编辑器),下载地址:https://exiftool.org/
  • 文件校验工具:WinMD5Free 2.07(Windows)/ sha256sum(Linux/macOS自带),WinMD5Free下载地址:https://www.winmd5.com/
  • 存储结构工具:直接用系统自带文件管理器(无需额外软件)

二、第一步:原始电子档案的合规预处理

合规预处理是确保档案可读、可长期保存的核心前提,分三类常见文件处理。

2.1 原生Office/WPS文档转PDF/A-2u

PDF/A-2u是GB/T 18894-2016推荐的主流版式长期保存格式,保留透明度、图层、可搜索文本。

  • 打开LibreOffice Writer/Calc/Impress,导入要处理的文档
  • 点击顶部菜单「文件」→「导出为」→「导出为PDF」
  • 弹出窗口中,切换到「通用」标签页:
    • 勾选「创建PDF/A-2u格式」
    • 取消勾选「创建表单」「创建标签PDF」(仅需保留基础可读结构)
    • 「图像分辨率」统一设置为300 DPI(扫描件同,原生不降低清晰度)
  • 切换到「安全」标签页,取消所有权限限制,确保长期无阻碍访问
  • 点击「导出」,保存路径建议单独建立「原始预处理临时文件夹」

2.2 扫描/拍摄电子图片转PDF/A-2u

单张图片先确保格式为TIFF/PNG(JPEG仅用于日常预览,长期保存选无损压缩),多张批量处理用ImageMagick。

  • 单张图片转PDF/A-2u:
    • Windows右键点击TIFF/PNG图片,选择「发送到」→「LibreOffice Draw」
    • 后续操作同2.1原生文档导出步骤
  • 多张批量转(100张以内推荐此方法,速度快):
    • 将所有图片按顺序重命名为「001.tiff」「002.tiff」…
    • 在图片所在文件夹空白处右键,选择「在终端中打开」(Windows需先安装Git Bash或ImageMagick自带的Command Prompt)
    • 输入以下完整命令并回车:
      ``` convert 001.tiff 002.tiff 003.tiff -compress lzw -density 300 -page A4 -units PixelsPerInch -define pdf:use-cropbox=true -define pdf:version=2 -define pdfa:part=2u output.pdf ```
      注意:替换文件名后缀和output.pdf为实际名称

2.3 元数据自动补全与手动修正

元数据是电子档案的「身份证」,DA/T 58-2021要求至少包含题名、责任者、日期、文件格式、文件大小5项核心元数据。

  • 批量自动提取基础元数据:
    • Windows/macOS/Linux通用,在「原始预处理临时文件夹」下建一个TXT文件,命名为「exiftool_cmd.txt」
    • 打开TXT文件,输入以下完整命令并保存:
      ``` exiftool -Title="替换为档案总题名" -Creator="替换为责任者全称" -CreateDate="202X:XX:XX 00:00:00" -ModifyDate="202X:XX:XX 00:00:00" -Subject="档案分类,比如人事档案/合同档案" -FileTypeExtension=pdf -FileType=PDF -overwrite_original .pdf ```
      注意:所有日期格式必须为「YYYY:MM:DD HH:MM:SS」
    • Windows右键点击「exiftool_cmd.txt」,选择「重命名」,将后缀改为「.bat」,双击运行;macOS/Linux右键打开终端,输入「bash exiftool_cmd.txt」回车
  • 手动修正单份档案元数据:
    • 右键点击PDF/A-2u文件,选择「用ExifTool GUI打开」(需单独下载ExifTool GUI 4.56辅助,下载地址:https://exiftool.org/gui/)
    • 在「Metadata」面板直接修改核心字段,点击「Save」覆盖

三、第二步:存储结构与校验值生成

电子档案数字化长期保存零基础实操全流程技术指南

严格按照DA/T 58-2021的三级结构(根目录、件目录、文件目录)组织,生成双重SHA-256校验值防篡改。

3.1 DA/T 58-2021三级目录搭建

  • 建立根目录:命名为「DA_T58_电子档案_批次号_202X-XX-XX」,批次号用「YYYYMMDD+两位流水号」
  • 件目录:根目录下每个子文件夹对应1件档案,命名为「件号_题名」,件号从001开始连续
  • 文件目录:每个件目录下必须包含两类文件
    • 「content.pdf」:合规预处理后的PDF/A-2u文件
    • 「metadata.xml」:DA/T 58-2021要求的单份档案元数据XML文件

3.2 metadata.xml完整模板与填写

复制以下完整内容到记事本,另存为「metadata.xml」,编码选UTF-8无BOM

``` 替换为该件档案的具体题名 替换为该件档案的完整件号 202X-XX-XX 替换为责任者全称 1份 PDF/A-2u 替换为content.pdf的实际字节数 ```

字节数查看方法:Windows右键属性→「大小(字节)」;macOS/Linux右键→「显示简介」/终端输入「ls -l content.pdf」

3.3 双重SHA-256校验值生成与保存

分别生成单份content.pdf的校验值和整个根目录的校验值清单,清单命名为「checksum.sha256」,放在根目录下。

  • Windows用WinMD5Free:
    • 打开WinMD5Free,切换到「SHA-256」标签页
    • 拖拽单个content.pdf到窗口,复制生成的哈希值到对应的metadata.xml的「physdesc」下新增一个自定义标签(可选但推荐)
    • 点击「批量文件」→「添加目录」→选择根目录→勾选「递归处理子目录」→点击「生成」→保存为「checksum.sha256」
  • Linux/macOS用自带命令:
    • 在根目录下右键打开终端,输入以下命令并回车:
      ``` sha256sum $(find . -type f) > checksum.sha256 ```

四、第三步:长期存储介质选择与备份策略

遵循「3-2-1-1-0」备份原则(3份数据、2种不同介质、1份异地、1份离线冷备、0错误校验)。

  • 介质选择
    • 主备介质1:企业级SSD/HDD(至少2TB,NTFS/exFAT格式,exFAT支持跨平台)
    • 离线冷备介质:蓝光光盘BD-R XL(100GB/张,归档级,寿命约50-100年),刻录软件用ImgBurn(免费,下载地址:https://www.imgburn.com/),刻录速度选2X
  • 备份步骤
    • 先将根目录完整复制到企业级SSD/HDD
    • 用ImgBurn将根目录打包成ISO镜像(ImgBurn→「创建镜像文件从文件/文件夹」→拖拽根目录→设置输出路径→点击「构建」)
    • 用ImgBurn将ISO镜像刻录到归档级BD-R XL,刻录完成后再次用ImgBurn读取校验
    • 异地备份可选择企业网盘的私有云分区(需支持SHA-256校验),每月定期同步并校验1次checksum.sha256
AI咨询
热线电话

028-85154420

15388110056

全国售前咨询电话

扫码咨询
安答联动微信公众号二维码

微信扫码关注安答联动

申请试用
热线电话
申请试用

安答联动档案管理系统