文书档案智能编目实操指南:零门槛批量处理存量文书档案
前期准备工作
正式开始操作前,先完成2项准备工作,避免后续卡壳:
- 整理待编目文件:所有文书已经完成扫描,分辨率设置为300DPI,存储为单页PNG/JPG格式,单文件大小不超过10MB,按件打包放在同一个文件夹中。如果是多页PDF,转格式方法见文末常见问题。
- 整理分类规则:提前拿出本单位《文书档案分类方案》,整理出年度、机构、保管期限3个核心分类项,统一规则逻辑即可,无需提前整理格式。
免费工具获取
本次操作不需要本地安装任何AI环境,不需要编写自定义代码,用浏览器就能完成,直接打开飞桨AI Studio公开项目地址,用百度账号登录即可免费使用:https://aistudio.baidu.com/aistudio/projectdetail/4568789,登录后点击右上角「Fork」按钮,将项目复制到自己的账号下,就可以开始操作。
核心实操步骤
步骤1:批量上传待编目扫描件
进入自己复制的项目,点击左侧导航栏的「数据」选项,打开「上传数据」弹窗,选择提前整理好的所有文书扫描件,点击批量上传,等待上传完成即可。上传完成后确认文件列表显示所有文件,没有损坏、缺失即可。
步骤2:自定义编目规则配置
找到项目文件列表中的「config.py」文件,点击编辑按钮,清空原有内容,直接复制以下完整配置,再根据本单位实际情况修改即可:
``` 文书档案智能编目核心配置,仅修改CATALOG_RULES即可使用 规则格式:"文书内容独有关键词": "分类号-年度-机构-保管期限" CATALOG_RULES = { "办公室印发通知": "SW-BGS-2023-01-YJ", "党组会议决议": "SW-DZ-2023-02-YJ", "下级单位请示": "SW-BGS-2023-03-QN", "对外发文批复": "SW-BGS-2023-04-QN", "年度工作总结": "SW-BGS-2023-05-YJ" } OCR识别置信度阈值,低于阈值自动标记,无需修改,默认0.7即可 OCR_THRESHOLD = 0.7 输出编目表的文件名 OUTPUT_NAME = "2023年度文书档案编目表.xlsx" 是否启用国标DA/T 22-2015格式,需要国标就设为True,不需要设为False USE_STANDARD_TEMPLATE = True ```关键修改提醒:关键词必须填写对应类别文书独有的特征词,不要用「通知」「文件」这类通用词,否则会出现匹配错误;编目项的格式可以完全自定义,需要加什么字段就按顺序加,最终输出会自动拆分到对应Excel列。
步骤3:运行智能编目任务
配置修改完成后点击保存,回到项目首页,点击顶部的「运行全部」按钮,即可启动任务。如果弹出资源选择提示,直接选择免费的CPU环境即可,不需要GPU资源,不影响识别效果。

运行时间根据文件数量变化,100页文书大约需要2分钟,1000页文书大约15分钟,运行过程中不需要人工操作,等待完成即可。
步骤4:导出结果复核异常
运行完成后,项目根目录会生成你配置的Excel编目表,点击下载即可直接使用。编目表默认包含:件号、文件名称、年度、机构、保管期限、分类号、OCR识别得分、内容摘要共8个基础字段,如果开启了国标模板,会自动对应国标要求的所有列。
对于OCR识别得分低于阈值的异常文件(比如字迹模糊、褶皱的扫描件),会在Excel中自动标红,只需要手动打开对应扫描件修改编目信息即可,100份文件的异常数量通常不超过5份,大幅降低人工工作量。
常见问题解决
-
扫描件是多页PDF怎么处理?
直接打开免费在线工具:https://smallpdf.com/cn/pdf-png,上传多页PDF后选择「拆分单页转图片」,直接下载打包好的单页图片,就可以上传使用,不需要安装本地软件。
-
分类匹配错误率高怎么调整?
修改CATALOG_RULES中的关键词,把通用关键词替换成更具体的独有关键词,比如把「通知」改成「2023年办公室通知」,错误率可以降到1%以下。
-
项目提示找不到文件怎么办?
重新Fork一次项目即可,原项目为公开项目,不会删除文件,是权限问题导致的加载失败,重新复制到自己账号即可解决。
整个流程所有工具均免费使用,无使用额度限制,所有操作都在浏览器内完成,不需要额外安装软件,零基础也可以半天完成上千页文书档案的编目工作。