茂名本地单位档案数字化规范加工全流程实操落地指南
一、前期准备工作
1.1 工具与软件准备
提前准备好以下工具软件,所有链接均为官方正规地址,可直接访问下载:
- 物理工具:纯棉手套(防止手上汗液污染档案纸张)、铅笔、橡皮、档案修补胶带、低功率熨斗(熨平褶皱纸张)
- 扫描驱动:中晶/富士通扫描器驱动可直接从官网下载:中晶https://www.microtek.com.cn/service/download/,富士通https://www.fujitsu.com/cn/products/computing/peripheral/scanners/download/
- OCR识别软件:免费可批量操作的天若OCR,下载地址:https://tianruocr.github.io/
- 批量图像处理工具:免费绿色版IrfanView,下载地址:https://www.irfanview.com/
1.2 档案预整理
按照《茂名市档案馆档案接收规范》,先对纸质档案做预分类:分为文书档案、业务档案、人事档案、科技档案四大类,每大类按照保管期限(永久、30年、10年)分开摆放,逐卷核对目录与实际页数,缺页、漏页、破损页登记在《档案前处理登记表》,提前修补破损页再进入下一环。
二、核心操作全流程
2.1 档案前处理
- 拆除所有金属装订物:包括订书钉、装订针、回形针、夹钳,全部清理干净,防止刮花扫描镜头、损坏纸张
- 处理不平整纸张:褶皱纸张用低温熨斗(温度调至100℃以下,垫一层白纸防止烫坏)熨平,破损页用修补胶带粘贴补全,超出台纸的纸张折叠后扫描,扫描后再展开处理图像
- 编制件号:用2B铅笔在每一份文件的右下角空白处编写件号,不能遮挡正文内容,顺序与目录保持一致
2.2 扫描操作
严格按照茂名档案归档要求设置扫描参数,直接套用以下配置即可:
- 分辨率:统一设置为300DPI,字迹模糊的档案可调整为400DPI
- 色彩模式:有红色印章、彩色图表的档案用24位真彩色扫描,纯黑白文字档案用1位黑白扫描,老旧褪色档案用灰度扫描
- 输出格式:初始扫描文件保存为无压缩TIFF格式,方便后续处理
- 命名规则:统一按照
全宗号-目录号-年度-件号命名,例如:015-007-2022-024.tif,禁止使用中文、特殊字符(空格、、&)作为文件名,避免系统导入乱码
2.3 图像处理与OCR识别
- 批量裁剪黑边:打开IrfanView,点击「文件」→「批量转换/重命名」,添加所有TIFF文件,点击「高级」勾选「自动裁剪黑边」,设置输出文件夹后点击开始,1分钟即可完成百份文件处理
- OCR批量识别:打开天若OCR,点击「批量识别」→「添加图片文件夹」,输出格式选择「可检索PDF/A」,识别语言选择简体中文,点击开始识别。识别完成后,人工核对所有页码、人名、地名、数字,修正OCR识别错误,茂名档案馆要求OCR识别准确率不低于95%,核对环节不能省略
2.4 数据挂接与备份
如果是本单位留存,直接挂接本单位数字档案系统:
- 登录单位数字档案管理系统,进入「数据批量导入」模块
- 按照系统提示,对应填写元数据字段:全宗号、目录号、年度、件号、题名、责任者、保管期限,元数据保存为XML格式
- 批量上传处理好的PDF/A文件,导入完成后抽查10%的档案,确认挂接正确、文件可以正常打开
- 完成双备份:一份存储在单位本地服务器,一份存储在离线移动硬盘,存放于符合防火防潮要求的档案库房,如果需要移交茂名市档案馆,需要额外刻录成不可改写的蓝光光盘,光盘表面标注单位名称、全宗号、年度、档案总份数。
三、茂名本地验收标准核对

移交或入库前按照以下标准逐一核对,避免返工:
- 图像清晰无偏斜,偏斜角度不超过3度,无黑边、漏扫、重扫,分辨率不低于300DPI
- 所有全文档案为可检索PDF/A格式,适合长期存储,OCR识别准确率不低于95%
- 元数据完整,所有必填字段无空缺,文件命名符合规范,无乱码
- 数据无病毒,所有文件可以正常打开读取,备份介质无损坏
四、常见卡壳问题解决
扫描进纸卡纸:先关闭扫描器电源,缓慢顺着进纸方向抽出卡纸,不要硬扯,抽出后检查进纸轮是否有纸屑残留,清理后再重启使用。
OCR识别乱码:检查扫描分辨率是否低于300DPI,纸张是否过于模糊,重新调高分辨率扫描后再识别即可解决。
系统导入失败:检查文件名是否包含特殊字符,删除特殊字符后重新导入,如仍失败检查文件大小,单份文件超过100M拆分后再导入。