档案信息化工程师:从零搭建电子档案元数据采集实操指南
实操前置准备
必备工具安装
仅需安装Python 3.8及以上版本,直接执行以下步骤:
- 打开下载地址:https://www.python.org/ftp/python/3.11.4/python-3.11.4-amd64.exe
- 运行安装包,务必勾选底部的Add Python to PATH选项
- 点击Install Now,等待安装完成,无需额外配置
核心实操步骤
1. 搭建元数据采集框架
在D盘新建名为archives的文件夹,再在其中新建input和output子文件夹;在archives文件夹内新建名为metadata_tool.py的文本文件,将以下完整代码复制粘贴到该文件中:
```python import os import xml.etree.ElementTree as ET from datetime import datetime 配置区:修改此处参数即可,其余代码请勿动 INPUT_FOLDER = r"D:\archives\input" 待采集档案存放路径 OUTPUT_XML = r"D:\archives\output\archive_metadata.xml" 元数据输出路径 ARCHIVE_PREFIX = "DA-2024-" 档案编号前缀,按需修改 初始化XML元数据根节点 root = ET.Element("档案元数据") record_list = ET.SubElement(root, "记录列表") 批量遍历文件夹内档案文件 file_count = 0 for filename in os.listdir(INPUT_FOLDER): file_path = os.path.join(INPUT_FOLDER, filename) if os.path.isfile(file_path): 仅处理文件,忽略子文件夹 file_count += 1 提取文件基础元数据 file_stat = os.stat(file_path) file_size = round(file_stat.st_size / 1024, 2) 转换为KB单位 file_ext = os.path.splitext(filename)[1].lower() 生成单条档案记录节点 record = ET.SubElement(record_list, "档案记录") ET.SubElement(record, "档案编号").text = f"{ARCHIVE_PREFIX}{file_count:06d}" ET.SubElement(record, "题名").text = filename.replace(file_ext, "") ET.SubElement(record, "责任者").text = "单位归档组" 按需修改为实际归档单位 ET.SubElement(record, "形成日期").text = datetime.fromtimestamp(file_stat.st_ctime).strftime("%Y-%m-%d") ET.SubElement(record, "归档日期").text = datetime.now().strftime("%Y-%m-%d") ET.SubElement(record, "文件路径").text = file_path ET.SubElement(record, "文件大小").text = f"{file_size} KB" ET.SubElement(record, "文件格式").text = file_ext[1:] if file_ext else "未知" 确保输出目录存在,自动创建缺失文件夹 os.makedirs(os.path.dirname(OUTPUT_XML), exist_ok=True) 保存XML文件,采用UTF-8编码适配中文 tree = ET.ElementTree(root) tree.write(OUTPUT_XML, encoding="utf-8", xml_declaration=True) print(f"元数据采集完成,共生成{file_count}条记录,文件路径:{OUTPUT_XML}") ```2. 自定义配置参数
用记事本打开metadata_tool.py,仅修改3处关键参数:
- INPUT_FOLDER:替换为你的档案存放路径,例如r"C:\人事档案\扫描件"
- OUTPUT_XML:替换为你需要保存的元数据文件路径,例如r"C:\人事档案\元数据.xml"
- ARCHIVE_PREFIX:替换为单位要求的档案编号前缀,例如"2024-财务-"
其余代码请勿修改,保持默认即可,默认字段覆盖档案归档全部必填项。
3. 执行脚本生成标准化元数据

按下Win+R组合键,输入cmd后回车打开命令提示符;在命令行中输入cd D:\archives,回车进入脚本所在文件夹;再输入python metadata_tool.py,回车执行。
执行完成后终端会输出提示,显示采集的档案数量和元数据文件保存路径。
实操校验与修正
1. 校验元数据文件有效性
找到output文件夹内生成的archive_metadata.xml,双击用浏览器打开;检查所有字段是否完整,档案编号是否连续无重复,文件大小、格式是否为空。
2. 修正异常数据
若存在字段缺失,返回input文件夹补全对应档案后重新执行脚本;若需修改档案编号前缀,直接修改代码中的ARCHIVE_PREFIX后重新执行即可,旧的XML不会被覆盖。
关键注意事项
必看细节提示
- 路径必须带r前缀,避免Windows反斜杠转义导致的路径错误;
- 脚本会自动创建output文件夹,无需手动提前新建;
- 若执行时提示“不是内部或外部命令”,检查Python安装时是否勾选Add Python to PATH选项,重新安装即可;
- input文件夹内仅放待归档的档案文件,不要嵌套子文件夹,否则会出现路径识别错误。
扩展适配方法
若需添加自定义元数据字段,例如“保密等级”,只需在代码中新增对应字段的ET.SubElement节点即可,新增内容无需额外配置。