零基础打造可自动整理档案的档案管理机器人实操步骤

一、环境准备

需要Python3.8及以上版本,直接从官方地址下载:https://www.python.org/downloads/,安装时必须勾选Add Python to PATH选项,否则后续pip命令无法执行。安装完成后,打开命令行(Windows按Win+R输入cmd,Mac/Linux打开终端),执行以下命令安装所需依赖库:

  • pip install pymupdf opencv-python pillow

二、核心功能逻辑说明

本机器人实现3个核心动作:

  • 自动扫描源文件夹内的档案文件(支持PDF、JPG、PNG格式)
  • 通过文件名提取档案类型、年份信息
  • 自动将文件分类移动到目标文件夹的对应子目录,同时记录操作日志

2.1 文件格式适配说明

优先支持文本型PDF文件(无需OCR,减少配置成本),若为扫描件图片,需额外安装pytesseract库(命令:pip install pytesseract,同时安装对应系统的Tesseract引擎,Windows下载地址:https://github.com/UB-Mannheim/tesseract/wiki)。本实操以文本PDF为例,零门槛落地。

2.2 命名规则约定

零基础打造可自动整理档案的档案管理机器人实操步骤

假设档案文件命名格式为【类型_年份_编号.后缀】,例如:合同_2024_001.pdf、报表_2023_015.jpg,可根据自身命名格式修改正则表达式部分。

三、完整代码编写

新建一个空白文件,命名为archive_robot.py,粘贴以下完整代码:

``` import os import re import shutil import fitz import logging 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s', handlers=[logging.FileHandler("archive_log.txt"), logging.StreamHandler()]) 路径配置 SOURCE_DIR = "./source" TARGET_DIR = "./target" 正则匹配规则(按命名格式调整) PATTERN = r'^(?P\w+)_(?P\d{4})_(?P\d+)\.\w+$' def extract_info(filename): match = re.match(PATTERN, filename) if match: return match.group('type'), match.group('year') else: return None, None def process_file(file_path): filename = os.path.basename(file_path) file_type = filename.split('.')[-1].lower() if file_type not in ['pdf', 'jpg', 'jpeg', 'png']: logging.info(f"跳过不支持的文件: {filename}") return doc_type, year = extract_info(filename) if not doc_type or not year: logging.info(f"文件名格式不匹配,跳过: {filename}") return target_subdir = os.path.join(TARGET_DIR, doc_type, year) os.makedirs(target_subdir, exist_ok=True) target_path = os.path.join(target_subdir, filename) shutil.move(file_path, target_path) logging.info(f"已分类: {filename} → {target_subdir}") if __name__ == "__main__": if not os.path.exists(SOURCE_DIR): os.makedirs(SOURCE_DIR) logging.info(f"已创建源文件夹: {SOURCE_DIR},请放入档案文件后再运行") exit() for root, _, files in os.walk(SOURCE_DIR): for file in files: file_path = os.path.join(root, file) process_file(file_path) ```

四、运行与测试

运行前务必创建source和target两个文件夹,与archive_robot.py放在同一目录下。步骤如下:

  • 将待整理的档案文件放入source文件夹
  • 打开命令行,进入archive_robot.py所在目录(Windows用cd D:\xxx,Mac/Linux用cd /xxx)
  • 执行命令:python archive_robot.py
  • 查看日志:打开同目录下的archive_log.txt确认分类结果;打开target文件夹,可见按类型、年份生成的子文件夹,文件已自动归类

五、常见问题修复

若运行中出现错误,按以下方式排查:

  • pip命令报错:检查Python是否安装且已加入PATH,重新安装时勾选Add Python to PATH
  • 找不到pymupdf库:重新执行pip install pymupdf
  • 文件名匹配失败:修改代码中的PATTERN正则表达式,例如文件名是“2024_合同_001.pdf”,可改为r'^(?P\d{4})_(?P\w+)_(?P\d+)\.\w+$'
  • 没有权限移动文件:检查源文件夹和目标文件夹是否有读写权限,Windows可右键文件夹→属性→安全→设置完全控制权限
AI咨询
热线电话

028-85154420

15388110056

全国售前咨询电话

扫码咨询
安答联动微信公众号二维码

微信扫码关注安答联动

申请试用
热线电话
申请试用

安答联动档案管理系统