零基础打造可自动整理档案的档案管理机器人实操步骤

发布时间: 2026年05月31日 02:10:01 来源: 安答联动浏览量: 0

一、环境准备

需要Python3.8及以上版本，直接从官方地址下载：https://www.python.org/downloads/，安装时必须勾选Add Python to PATH选项，否则后续pip命令无法执行。安装完成后，打开命令行（Windows按Win+R输入cmd，Mac/Linux打开终端），执行以下命令安装所需依赖库：

pip install pymupdf opencv-python pillow

二、核心功能逻辑说明

本机器人实现3个核心动作：

自动扫描源文件夹内的档案文件（支持PDF、JPG、PNG格式）
通过文件名提取档案类型、年份信息
自动将文件分类移动到目标文件夹的对应子目录，同时记录操作日志

2.1 文件格式适配说明

优先支持文本型PDF文件（无需OCR，减少配置成本），若为扫描件图片，需额外安装pytesseract库（命令：pip install pytesseract，同时安装对应系统的Tesseract引擎，Windows下载地址：https://github.com/UB-Mannheim/tesseract/wiki）。本实操以文本PDF为例，零门槛落地。

2.2 命名规则约定

零基础打造可自动整理档案的档案管理机器人实操步骤

假设档案文件命名格式为【类型_年份_编号.后缀】，例如：合同_2024_001.pdf、报表_2023_015.jpg，可根据自身命名格式修改正则表达式部分。

三、完整代码编写

新建一个空白文件，命名为archive_robot.py，粘贴以下完整代码：

``` import os import re import shutil import fitz import logging 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s', handlers=[logging.FileHandler("archive_log.txt"), logging.StreamHandler()]) 路径配置 SOURCE_DIR = "./source" TARGET_DIR = "./target" 正则匹配规则（按命名格式调整） PATTERN = r'^(?P\w+)_(?P\d{4})_(?P\d+)\.\w+$' def extract_info(filename): match = re.match(PATTERN, filename) if match: return match.group('type'), match.group('year') else: return None, None def process_file(file_path): filename = os.path.basename(file_path) file_type = filename.split('.')[-1].lower() if file_type not in ['pdf', 'jpg', 'jpeg', 'png']: logging.info(f"跳过不支持的文件: {filename}") return doc_type, year = extract_info(filename) if not doc_type or not year: logging.info(f"文件名格式不匹配，跳过: {filename}") return target_subdir = os.path.join(TARGET_DIR, doc_type, year) os.makedirs(target_subdir, exist_ok=True) target_path = os.path.join(target_subdir, filename) shutil.move(file_path, target_path) logging.info(f"已分类: {filename} → {target_subdir}") if __name__ == "__main__": if not os.path.exists(SOURCE_DIR): os.makedirs(SOURCE_DIR) logging.info(f"已创建源文件夹: {SOURCE_DIR}，请放入档案文件后再运行") exit() for root, _, files in os.walk(SOURCE_DIR): for file in files: file_path = os.path.join(root, file) process_file(file_path) ```

四、运行与测试

运行前务必创建source和target两个文件夹，与archive_robot.py放在同一目录下。步骤如下：

将待整理的档案文件放入source文件夹
打开命令行，进入archive_robot.py所在目录（Windows用cd D:\xxx，Mac/Linux用cd /xxx）
执行命令：python archive_robot.py
查看日志：打开同目录下的archive_log.txt确认分类结果；打开target文件夹，可见按类型、年份生成的子文件夹，文件已自动归类

五、常见问题修复

若运行中出现错误，按以下方式排查：

pip命令报错：检查Python是否安装且已加入PATH，重新安装时勾选Add Python to PATH
找不到pymupdf库：重新执行pip install pymupdf
文件名匹配失败：修改代码中的PATTERN正则表达式，例如文件名是“2024_合同_001.pdf”，可改为r'^(?P\d{4})_(?P\w+)_(?P\d+)\.\w+$'
没有权限移动文件：检查源文件夹和目标文件夹是否有读写权限，Windows可右键文件夹→属性→安全→设置完全控制权限

上一篇：踩过10所高校各种档案坑才发现学校数字档案馆是真香硬货

下一篇：企业电子档案系统技术支持：日常运维与故障排查实操指南