档案数字化软件实战指南:从零搭建到批量处理

一、核心工具选择与本地环境搭建

本指南基于开源软件 ScanTailor Advanced 和文档管理工具 Paperless-ngx 构建一套完整的数字化流程。前者负责图像预处理,后者负责文档管理、OCR和检索。

1.1 软件获取与安装

访问以下链接下载并安装核心软件:

  • ScanTailor Advanced (图像处理):访问其 GitHub 发布页 https://github.com/4lex4/scantailor-advanced/releases,根据你的操作系统下载最新版本安装包。Windows用户下载 .exe 安装程序,macOS用户下载 .dmg,Linux用户下载 AppImage
  • Paperless-ngx (文档管理):推荐使用Docker Compose部署。首先确保系统已安装Docker Engine和Docker Compose。访问官方仓库 https://github.com/paperless-ngx/paperless-ngx,下载 docker-compose.yml.env 配置文件。

1.2 快速启动Paperless-ngx

在下载配置文件的目录中,执行以下命令启动服务:

``` 编辑环境配置文件,设置管理员密码和密钥 cp .env.example .env nano .env 或使用其他文本编辑器 ```

.env 文件中,找到并修改以下关键行:

``` PAPERLESS_SECRET_KEY=your-very-secret-key-change-me-now PAPERLESS_ADMIN_USER=admin PAPERLESS_ADMIN_PASSWORD=your-strong-password-here ```

保存后,使用Docker Compose启动:

``` docker-compose up -d ```

等待所有容器启动完毕(约1-2分钟),在浏览器中访问 http://localhost:8000,使用上面设置的管理员账号密码登录。

二、标准化扫描与图像采集流程

数字化质量始于物理扫描。无论使用高速扫描仪还是手机,遵循以下参数设置。

2.1 扫描仪参数设定

  • 分辨率:设置为 300 DPI。这是OCR识别和长期存档的平衡点。
  • 色彩模式:黑白文档(如文字合同)使用黑白(二值化);有彩色印章、照片或褪色文档使用彩色;老旧泛黄文档使用灰度
  • 文件格式:扫描输出直接保存为 TIFF 或无损的 PNG 格式。避免使用有损压缩的JPG作为原始文件。
  • 命名规则:采用“日期_序列号_简要描述”格式,例如 20231027_001_劳动合同.pdf.tiff。在扫描前就建立好文件夹结构,如“/2023年/10月/人事档案/”。

2.2 手机扫描替代方案

若无专业扫描仪,可使用手机App“Microsoft Lens”或“Adobe Scan”。操作要点:

  • 拍摄时确保文档平铺,光线均匀,无阴影。
  • App自动裁剪后,务必选择保存为PDF图像,并选择最高质量。
  • 通过数据线或云同步,将文件导入到电脑的待处理文件夹。

三、使用ScanTailor Advanced进行批量图像优化

此步骤将歪斜、有黑边、噪点的扫描件处理为标准电子文档。

3.1 新建项目与导入

打开ScanTailor Advanced,点击“New Project”。在“Input directory”选择你的原始扫描图像文件夹,在“Output directory”指定一个新的空文件夹用于存放结果。点击“OK”导入所有图像。

3.2 五步自动化处理流程

软件左侧有清晰的五个步骤,按顺序操作:

  1. Fix Orientation:软件通常能自动纠正。全选所有图片,点击“Apply to All”,确认所有页面方向正确。
  2. Split Pages:如果单张扫描了左右两页,在此步骤启用“Split pages”。设置合适的“Split line position”(通常居中)。
  3. Deskew(纠偏):全选图片,点击“Deskew Automatically”。逐个检查,如有自动纠偏失败的,手动拖动旋转线调整。
  4. Select Content(选择内容区域):这是最关键的一步。点击“Apply Auto Margins…”。在弹出的对话框中,设置“Margins”为“2 mm”,勾选“Fine-tune content box automatically”。点击“OK”后,软件会自动框选有效内容,去除扫描黑边。务必滚动检查每一页,手动调整未识别准确的框线。
  5. Margins(设置页边距):选择“Add Margins”。设置“Margins”为“5 mm”, “Alignment”选择“Center”。这会让页面看起来更舒适。

3.3 输出设置与批量处理

点击顶部菜单“File” -> “Output Settings”。进行如下设置:

  • Output DPI: 300
  • Mode: 黑白文档选 Black and White, 彩色/灰度文档选 Color/Grayscale
  • File type: 选择 TIFFPNG

档案数字化软件实战指南:从零搭建到批量处理

设置完成后,点击顶部绿色播放按钮“Run All”,软件开始批量处理。处理完成后,在预设的输出文件夹中查看优化后的图像。

四、在Paperless-ngx中完成归档与OCR

将处理好的图像导入Paperless-ngx,实现智能管理。

4.1 配置消费文件夹(Consume Folder)

Paperless-ngx通过监控一个文件夹来自动导入文档。

  • 在Paperless-ngx网页后台,点击左侧“Settings” -> “Consumption”。
  • 找到“Consume folder”路径,默认为容器内的 /usr/src/paperless/consume/
  • 在宿主机上,你需要将本地文件夹挂载到这个路径。编辑之前下载的 docker-compose.yml 文件,在 volumes 部分为 brokerwebserver 服务添加一行映射(如果尚未存在):
``` - /path/to/your/consume/folder:/usr/src/paperless/consume ```

/path/to/your/consume/folder 替换为你本地用于存放待导入文件的真实路径,例如 D:\PaperlessInbox

  • 保存并重启服务:docker-compose restart

4.2 导入文档并自动处理

将ScanTailor Advanced处理好的图像文件(TIFF/PNG)或PDF,直接复制或移动到上一步配置的本地消费文件夹(如 D:\PaperlessInbox)。

Paperless-ngx会立即检测并开始处理流程:

  1. OCR文本提取:自动对图像进行OCR,提取可搜索的文本层。
  2. 标签与类型自动匹配:根据预设的匹配规则(可在“Settings” -> “Matching”中配置),自动为文档打上标签(如“发票”、“合同”)、分配文档类型和对应者。
  3. 归档:处理完成后,原文件从消费文件夹消失,被移动至归档存储(默认在 /usr/src/paperless/data 对应的挂载目录)。

你可以在Web界面的“Dashboard”查看处理队列,在“Documents”中查看所有已归档文档。

4.3 手动完善元数据与检索

导入后,点击任一文档进行编辑:

  • 标题:系统会自动生成一个,建议修改为更易读的名称。
  • 对应者(Correspondent):填写发文单位或个人。
  • 文档类型(Document Type):如“账单”、“报告”、“证书”。
  • 标签(Tags):添加多个关键词,如“2023年”、“财务”、“长期保存”。
  • 日期:修正为文档的实际日期。

完成这些元数据填充后,你可以在顶部搜索框进行全文检索(基于OCR文本),或使用“对应者”、“标签”、“类型”等过滤器快速定位任何文档。

五、自动化流程与定期维护

5.1 创建自动化规则(Auto-matching Rules)

在“Settings” -> “Matching”中创建规则,让系统自动分类。

  • 点击“Add new matching rule”。
  • 在“Conditions”中,选择“Filename contains”,值为“invoice”。
  • 在“Actions”中,设置“Assign document type”为“Invoice”,“Assign tag”为“待报销”。
  • 保存后,所有文件名包含“invoice”的文件导入后都会自动归类为发票并打上标签。

5.2 数据备份

Paperless-ngx的数据包括数据库、文档文件和索引。备份只需备份其挂载的本地卷。

  • 找到 docker-compose.yml 中挂载的 datamediapgdata 等目录对应的本地路径。
  • 定期(如每周)将整个目录复制到备份硬盘或云存储。
  • 更简单的方法是使用导出功能:在“Settings” -> “Backup”中,点击“Download backup”,会得到一个包含所有元数据和文档的ZIP包。

5.3 定期更新

保持软件最新以获取功能改进和安全补丁。

  • ScanTailor Advanced:关注GitHub发布页,下载新版本覆盖安装。
  • Paperless-ngx:在存放 docker-compose.yml 的目录下执行:
``` docker-compose down docker-compose pull docker-compose up -d ```

此操作会拉取最新镜像并重启服务,你的所有数据和配置都会保留。

AI咨询
热线电话

028-85154420

15388110056

全国售前咨询电话

扫码咨询
安答联动微信公众号二维码

微信扫码关注安答联动

申请试用
热线电话
申请试用

安答联动档案管理系统