兼职: 小软件，自动化处理中国发票 PDF 文件的 Windows 软件

用 chatAi 生成了需求，大概就是这样。代码也给我生成了，我太懒了太忙了，来找有时间的小伙伴。

酬劳：500 元
项目周期：尽快完成
优先语言：Java （其他语言亦可考虑）

项目描述

我需要开发一款 Windows 应用程序，用于自动处理存放在指定文件夹中的中国高速费发票（ PDF 格式）。该软件将实现文件识别、重命名、分类整理以及每日通行费总金额的统计，从而简化每月报销流程，节省时间。

文件处理
- 输入文件夹：用户指定一个包含发票 PDF 文件的文件夹。
- 文件识别：
  - 识别每个 PDF 文件中的“通行日期”。
  - 提取每个 PDF 文件中的“通行费”金额。
文件重命名与分类
- 重命名：将每个 PDF 文件重命名为其识别出的“通行日期”（格式如 YYYY-MM-DD.pdf）。
- 分类存放：
  - 根据“通行日期”将 PDF 文件分类存放到对应的子文件夹中（如 2024-04-25 文件夹）。
  - 处理同一天多张发票的情况，自动在文件名中添加序号（如 2024-04-25_1.pdf）。
数据汇总
- 每日通行费总金额计算：统计每个“通行日期”对应的所有发票中的“通行费”总金额。
- 汇总输出：将统计结果导出为 Excel 或 CSV 文件，方便查看和上传到公司系统。
用户界面（可选）
- 提供图形用户界面（ GUI ），用户可以：
  - 选择输入和输出文件夹。
  - 查看处理进度和日志。
  - 启动处理任务。
错误处理与日志记录
- 记录无法识别或处理的文件，便于后续手动检查。
- 提供错误提示，帮助用户理解处理过程中出现的问题。

编程语言：优先考虑 Java ，其他语言（如 Python ）亦可考虑。
主要功能模块：
- PDF 解析：
  - 使用合适的 PDF 解析库提取文本内容（如 Apache PDFBox ）。
  - 对于扫描件 PDF ，集成 OCR 工具进行文字识别（如 Tess4J ）。
- 数据提取：
  - 使用正则表达式或字符串处理技术，从提取的文本中解析“通行日期”和“通行费”。
- 文件操作：
  - 实现文件重命名和分类存放。
  - 处理文件名冲突，确保文件名唯一。
- 数据汇总与导出：
  - 使用 Apache POI 生成 Excel 汇总文件，或生成 CSV 格式文件。
- 用户界面（可选）：
  - 使用 Java Swing 或 JavaFX 创建友好的 GUI ，提升用户体验。
- 打包与部署：
  - 将程序打包为 Windows 可执行文件（.exe ），便于在未安装 Java 环境的机器上运行。