东莞企事业单位档案管理员数字化归档实操全流程技术指南
一、前置准备:配齐工具+核对东莞档案标准
操作前必须确认这两项,否则直接返工率超80%。
1. 免费/合规必备工具清单
- 扫描设备:平板扫描仪(A3幅面优先,东莞档案馆推荐分辨率≥300dpi)
- 图像处理工具:ImageMagick 7.x 免费版,下载地址:https://imagemagick.org/script/download.phpwindows
- PDF工具:PDF Shaper Free 13.x 免费版,下载地址:https://www.pdfshaper.com/download-free
- 目录整理工具:Excel 2016及以上(无需插件)
2. 确认《东莞市档案数字化加工规范》最新版
东莞标准可能每季度微调,需直接复制打开东莞市档案馆官网下载页:http://www.dga.gov.cn/xxgk/zfxxgkml/zcfg/bmgfxwj/gfxwj/,搜索“数字化加工规范”,下载带公章的PDF最新版(202X年X月为准)。重点核对:
- 扫描格式(文字类PDF/A-1b,图像类TIFF G4,多页文档合并后转PDF/A-1b)
- 目录字段(全宗号、目录号、案卷号、件号、题名、责任者、成文日期、页数、保管期限、备注)
二、目录构建:Excel快速生成东莞标准兼容目录
东莞档案馆要求目录与扫描件“件级一一对应”,目录文件必须命名为「目录-全宗号-移交单位-移交日期.xlsx」。
1. Excel模板快速复制配置
无需自己排版,直接复制以下可直接用的Excel表头行,A1-J1依次填写:
- A1:全宗号
- B1:目录号
- C1:案卷号
- D1:件号
- E1:题名
- F1:责任者
- G1:成文日期
- H1:页数
- I1:保管期限
- J1:备注
2. 零误差批量生成目录
按东莞规范,全宗号、目录号、案卷号、件号必须为纯数字(不足位补前导0,如案卷号12→012,件号1→001),可通过Excel公式自动填充:
- 纯数字固定前导0格式:选中A-D列→右键「设置单元格格式」→「数字」→「自定义」→输入「000」(按需调整位数,比如全宗号3位、目录号2位、案卷号3位、件号3位)
- 自动填充件号:D2输入「001」,D3输入公式「=TEXT(D2+1,"000")」,下拉复制所有行
- 页数自动统计关联(后续操作会讲):先留空H列
三、档案扫描:平板扫描仪一键批量扫A3/A4混合件
混合件扫描无需分开操作,重点设置「自动裁切+自动纠偏+PDF/A-1b(文字类)」。
1. 扫描仪驱动+ImageMagick批量脚本前置
如果使用的是佳能、惠普等主流平板A3扫描仪,先安装对应驱动(官网可搜型号,或者用驱动精灵快速匹配专业驱动版,仅推荐纯驱动无广告的版本)。然后安装ImageMagick后,打开CMD输入「convert -version」,如果显示版本号说明安装成功。
2. 混合件一键批量扫配置(以佳能iR C3330为例,通用逻辑适配)
- 打开扫描仪操作界面→选择「批量扫描」→「文档类型」选「自动识别彩色/黑白(黑白转TIFF G4,彩色/灰度转PDF/A-1b压缩版)」
- 「分辨率」设为300dpi固定值→「纸张尺寸」选「自动裁切(保留最小边框)」→「自动纠偏」打勾→「命名规则」设为「{案卷号}-{件号}」(案卷号/件号可手动按Excel目录输入前缀)
- 「保存路径」设为「D:\东莞档案扫描\待处理\」→「自动分件」打勾,设置「空白页阈值≥98%自动删除」
3. 扫描质量快速自检
扫描完成后打开ImageMagick CMD,进入待处理目录,输入批量检测命令:
``` cd D:\东莞档案扫描\待处理\ magick identify -format "%f %wx%h %[colorspace]\n" .pdf .tif > 质量自检.txt ```
打开质量自检.txt,确认:黑白TIFF G4是1位,彩色/灰度PDF/A-1b≥300dpi,A4尺寸2480×3508,A3尺寸4961×7016。
四、批量合规处理:ImageMagick+PDF Shaper一键转标准格式
质量有问题的文件直接重扫,没问题的按以下步骤批量操作。
1. 黑白TIFF G4转件级PDF/A-1b
创建一个TXT文件,命名为「tif2pdf.bat」,放在待处理目录下,输入以下完整命令后双击运行:
``` @echo off for %%f in (.tif) do ( magick convert "%%f" -compress Group4 -define pdf:version=1.4 -profile "C:\Program Files\ImageMagick-7.1.1-Q16-HDRI\sRGB.icc" "%%~nf.pdf" ) del .tif echo TIFF转PDF/A-1b完成 pause ```注意:如果ImageMagick安装路径不是默认的,修改「C:\Program Files\...\sRGB.icc」为实际路径。
2. 所有PDF文件强制转PDF/A-1b并批量命名关联目录
打开PDF Shaper Free→点击「批量处理」→添加待处理目录下的所有PDF→点击「转换」→选择「PDF/A-1b」→勾选「保留原始PDF元数据但修正规范」→点击「下一步」→设置「保存路径」为「D:\东莞档案扫描\合规件\」→点击「开始转换」。
转换完成后,合规件目录的PDF命名必须严格为「全宗号-目录号-案卷号-件号.pdf」(如001-01-012-001.pdf),如果批量扫描时前缀不全,选中所有PDF→右键「重命名」→输入前缀按Excel目录调整后,系统会自动按顺序加(1)(2)…,然后用Excel生成批量重命名命令(公式:="ren "&D2&".pdf "&A2&"-"&B2&"-"&C2&"-"&D2&".pdf",D2是原文件名后缀去掉(1)的部分),复制命令到TXT另存为「重命名.bat」,放在合规件目录双击运行。
五、页数自动统计关联Excel目录
不用手动数,用Excel Power Query一键获取合规件PDF页数。
- 打开之前的Excel目录→点击「数据」→「获取数据」→「来自文件」→「从文件夹」→选择「D:\东莞档案扫描\合规件\」→点击「确定」
- 在Power Query编辑器中→点击「移除其他列」→仅保留「Name」「Page Count」(如果没有Page Count列,点击「添加列」→「自定义列」→输入公式「=File.PageCount([Folder Path]&[Name])」→点击「确定」)
- 点击「Name」列→右键「拆分列」→「按分隔符」→分隔符选「-」→拆分为4列→点击「确定」→将4列分别重命名为「全宗号」「目录号」「案卷号」「件号」→去掉「.pdf」→点击「关闭并上载」
- 在Excel目录的H2单元格输入公式「=VLOOKUP(A2&B2&C2&D2, Sheet2!A:E, 5, 0)」(Sheet2是Power Query生成的表,按需调整)→下拉复制所有行,页数自动填充
六、最终打包:东莞标准压缩包一键生成
东莞档案馆要求压缩包为ZIP格式,命名为「全宗号-移交单位-移交日期.zip」,内部结构严格为「目录/→合规件/」。
- 在D盘创建「东莞档案移交」文件夹→里面创建「目录」「合规件」两个子文件夹
- 把Excel目录(命名好的)放入「目录」,把合规件PDF放入「合规件」
- 选中「目录」「合规件」两个子文件夹→右键「发送到」→「压缩(zipped)文件夹」→重命名为标准格式