诉讼档案数字化服务全流程实操指南 从采集到归档标准化落地手册
一、前期准备工作
所有准备项需在项目启动前1天完成校验,避免中途停工影响进度。
1.1 硬件准备
- 高速扫描仪:支持A3幅面、自动进纸器容量≥100张、扫描速度≥60页/分钟,带平板扫描模块,可处理破损薄纸
- 存储设备:独立NAS阵列配置RAID5冗余,单盘容量≥4T,总容量≥项目预估存储量的2倍,另配2块同容量异地备份硬盘
- 辅助工具:无酸固体胶、无酸A4托裱纸、拆钉器、油性签字笔,所有工具不含酸性成分避免腐蚀档案
1.2 软件准备
- 扫描工具:开源Paperwork,下载地址:
https://github.com/openpaperwork/paperwork/releases - OCR工具:PaddleOCR开源版,执行命令直接安装:
pip install paddlepaddle==2.4.2 paddleocr==2.6.1.3 - 加密工具:7-Zip开源加密软件,下载地址:
https://www.7-zip.org/a/7z2201-x64.msi - 杀毒工具:ClamAV开源杀毒软件,下载地址:
https://www.clamav.net/downloads
1.3 合规校验

提前核对所有待数字化档案是否符合《人民法院诉讼档案管理办法》要求,涉密档案必须在物理断网的独立设备上处理,全程禁止接入公共网络,标注为永久不可公开的档案需提前报备,确认是否属于可数字化范围。
二、核心操作步骤
2.1 档案预处理
- 逐册核对档案卷号、年度、案件类型,拆除所有订书钉、回形针、金属夹,粘连页用无酸胶轻轻分离,破损页用无酸胶修复平整
- 小于A6的证据小票、票据,用A4无酸纸托裱,托裱时避免遮挡票面文字、印章内容
- 按页码顺序编制临时手写页码,标注在页面右下角空白处,禁止覆盖档案正文、印章、签字区域
2.2 批量扫描
- 打开Paperwork新建扫描任务,参数固定设置:分辨率300DPI,普通文书选黑白二值模式,彩色证据、盖章页选24位真彩色模式,存储格式默认PNG
- 档案按卷内目录在前、备考表在后的顺序放入进纸器,单次进纸量不超过进纸器额定容量的80%,严重破损无法进纸的页面切换平板扫描模式单独扫描,扫描后插入对应页码位置
- 每扫描完1册立即核对扫描页数和实际页码数,出现缺扫、歪扫、黑边的立即重扫对应页码
2.3 OCR识别与结构化标引
- 将扫描好的PNG文件批量存入指定文件夹,执行识别命令:
paddleocr --image_dir ./扫描文件路径 --use_angle_cls true --lang ch --output ./识别结果路径 - 提取结构化必填字段:案号、当事人姓名/单位名称、立案日期、结案日期、承办法官、密级,所有字段和原文逐字核对,错误率控制在0.1%以内
- 将识别文本和原扫描图绑定生成双层PDF,命名规则固定为:年度-案件类型代码-案号,示例:
2023-民-1234.pdf
2.4 质量校验
- 格式校验:用PDF阅读器打开所有文件,检查是否有缺页、乱码、文字不可复制的情况
- 内容校验:按总份数的10%随机抽检,抽检内容包括字段准确性、页码顺序、密级标注是否和原件一致,抽检不合格的批次全部重检
- 病毒查杀:用ClamAV对所有文件全盘扫描,排除病毒、恶意脚本风险
2.5 加密归档
- 按年度+案件类型分类整理双层PDF,单个文件夹大小不超过10G
- 用7-Zip加密压缩,加密算法选AES-256,密码长度≥16位,包含大小写字母、数字、特殊字符,压缩包命名和对应文件夹一致
- 压缩包分别存储到NAS阵列、异地备份硬盘各一份,执行MD5校验命令(Windows):
certutil -hashfile 压缩包路径 MD5,两份备份的MD5值完全一致才算归档完成
三、常见问题排查方案
- 扫描歪斜:打开Paperwork设置开启“自动纠偏”功能,单次进纸量减少20%即可解决
- OCR识别准确率低:将扫描分辨率调高到400DPI,有GPU的设备执行命令时加
--use_gpu true参数,手写内容标注“手写识别仅供参考”即可 - PDF文件过大:用Ghostscript压缩,执行命令:
gswin64c -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=压缩后.pdf 原文件.pdf,压缩后清晰度不低于原件90%即可 - MD5校验不一致:重新传输文件,用CrystalDiskInfo检测存储设备坏道,下载地址:
https://crystalmark.info/zh/software/crystaldiskinfo/,坏道硬盘立即更换
四、验收标准核对清单
- 所有档案扫描页数和实际页数100%一致,无缺扫、漏扫、重扫
- 结构化字段准确率≥99.9%,无案号、当事人、密级等关键字段错误
- 双层PDF可直接复制文本,打开速度≤2秒/份
- 两份备份的MD5值完全一致,加密密码符合安全规范
- 所有操作记录、校验记录留存归档,保存期限和档案保管期限一致