零基础打造可自动整理档案的档案管理机器人实操步骤
一、环境准备
需要Python3.8及以上版本,直接从官方地址下载:https://www.python.org/downloads/,安装时必须勾选Add Python to PATH选项,否则后续pip命令无法执行。安装完成后,打开命令行(Windows按Win+R输入cmd,Mac/Linux打开终端),执行以下命令安装所需依赖库:
- pip install pymupdf opencv-python pillow
二、核心功能逻辑说明
本机器人实现3个核心动作:
- 自动扫描源文件夹内的档案文件(支持PDF、JPG、PNG格式)
- 通过文件名提取档案类型、年份信息
- 自动将文件分类移动到目标文件夹的对应子目录,同时记录操作日志
2.1 文件格式适配说明
优先支持文本型PDF文件(无需OCR,减少配置成本),若为扫描件图片,需额外安装pytesseract库(命令:pip install pytesseract,同时安装对应系统的Tesseract引擎,Windows下载地址:https://github.com/UB-Mannheim/tesseract/wiki)。本实操以文本PDF为例,零门槛落地。
2.2 命名规则约定

假设档案文件命名格式为【类型_年份_编号.后缀】,例如:合同_2024_001.pdf、报表_2023_015.jpg,可根据自身命名格式修改正则表达式部分。
三、完整代码编写
新建一个空白文件,命名为archive_robot.py,粘贴以下完整代码:
``` import os import re import shutil import fitz import logging 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s', handlers=[logging.FileHandler("archive_log.txt"), logging.StreamHandler()]) 路径配置 SOURCE_DIR = "./source" TARGET_DIR = "./target" 正则匹配规则(按命名格式调整) PATTERN = r'^(?P四、运行与测试
运行前务必创建source和target两个文件夹,与archive_robot.py放在同一目录下。步骤如下:
- 将待整理的档案文件放入source文件夹
- 打开命令行,进入archive_robot.py所在目录(Windows用cd D:\xxx,Mac/Linux用cd /xxx)
- 执行命令:python archive_robot.py
- 查看日志:打开同目录下的archive_log.txt确认分类结果;打开target文件夹,可见按类型、年份生成的子文件夹,文件已自动归类
五、常见问题修复
若运行中出现错误,按以下方式排查:
- pip命令报错:检查Python是否安装且已加入PATH,重新安装时勾选Add Python to PATH
- 找不到pymupdf库:重新执行pip install pymupdf
- 文件名匹配失败:修改代码中的PATTERN正则表达式,例如文件名是“2024_合同_001.pdf”,可改为r'^(?P
\d{4})_(?P \w+)_(?P \d+)\.\w+$' - 没有权限移动文件:检查源文件夹和目标文件夹是否有读写权限,Windows可右键文件夹→属性→安全→设置完全控制权限