兼职: 小软件,自动化处理中国发票 PDF 文件的 Windows 软件

2024 年 10 月 6 日
 dengjunwen

用 chatAi 生成了需求,大概就是这样。代码也给我生成了,我太懒了太忙了,来找有时间的小伙伴。

酬劳:500 元
项目周期:尽快完成
优先语言:Java (其他语言亦可考虑)

项目描述

我需要开发一款 Windows 应用程序,用于自动处理存放在指定文件夹中的中国高速费发票( PDF 格式)。该软件将实现文件识别、重命名、分类整理以及每日通行费总金额的统计,从而简化每月报销流程,节省时间。

主要功能需求

  1. 文件处理

    • 输入文件夹:用户指定一个包含发票 PDF 文件的文件夹。
    • 文件识别
      • 识别每个 PDF 文件中的“通行日期”。
      • 提取每个 PDF 文件中的“通行费”金额。
  2. 文件重命名与分类

    • 重命名:将每个 PDF 文件重命名为其识别出的“通行日期”(格式如 YYYY-MM-DD.pdf)。
    • 分类存放
      • 根据“通行日期”将 PDF 文件分类存放到对应的子文件夹中(如 2024-04-25 文件夹)。
      • 处理同一天多张发票的情况,自动在文件名中添加序号(如 2024-04-25_1.pdf)。
  3. 数据汇总

    • 每日通行费总金额计算:统计每个“通行日期”对应的所有发票中的“通行费”总金额。
    • 汇总输出:将统计结果导出为 Excel 或 CSV 文件,方便查看和上传到公司系统。
  4. 用户界面(可选)

    • 提供图形用户界面( GUI ),用户可以:
      • 选择输入和输出文件夹。
      • 查看处理进度和日志。
      • 启动处理任务。
  5. 错误处理与日志记录

    • 记录无法识别或处理的文件,便于后续手动检查。
    • 提供错误提示,帮助用户理解处理过程中出现的问题。

技术要求

交付内容

2392 次点击
所在节点    外包
79 条回复
donaldturinglee
2024 年 10 月 6 日
OCR 就得好好喝上一壶了,留给有需要的人
tool2dx
2024 年 10 月 6 日
@donaldturinglee 官方下载的 pdf 又不是 jpg ,感觉不用识别,能直接提取。
Ct5T66PVR1bW7b2z
2024 年 10 月 6 日
至少 4 位数,才有人接
dengjunwen
2024 年 10 月 6 日
@Abbeyok 淘宝 500 ,但是不是我擅长的语言
dengjunwen
2024 年 10 月 6 日
@tool2dx 是的,
Xu3Xan89YsA7oP64
2024 年 10 月 6 日
上闲鱼找兼职的大学生碰碰运气吧,在这里加个零起步
ruobingm
2024 年 10 月 6 日
500 元真大
neoblackcap
2024 年 10 月 6 日
只要有接触过 PDF 的人就知道,PDF 解析并不是一个简单的活。连就连大厂的 PDF 支撑很多都是外购的解决方案。
如果你硬要用 OCR 的方案的话,可能百度的飞桨 OCR 效果还行。
TimG
2024 年 10 月 6 日
赞同楼上,刚做过两个 PDF 相关的项目,现在看到 PDF 就反胃......本来没有 PDF 一路畅通,需求加上 PDF 四处掉坑
dengjunwen
2024 年 10 月 6 日
@shizhibuyu2023 哎,别井底之蛙好不好,我淘宝做吧
Xu3Xan89YsA7oP64
2024 年 10 月 6 日
@dengjunwen #10 划算你能不自己做?沙币
googlefans
2024 年 10 月 6 日
ai 自己生成
dbskcnc
2024 年 10 月 6 日
@dengjunwen 不用代码的话倒可以一谈
needpp
2024 年 10 月 6 日
还是那句话,程序员的钱太难赚了
shadowyue
2024 年 10 月 6 日
op ,如果淘宝 500 就做成了,麻烦把店家给我介绍下
sarakeal
2024 年 10 月 6 日
我用 python 做过类似的工具,比这个稍微复杂一点。500 确实太少了,只够半天到一天的工作时间
0xfb709394
2024 年 10 月 6 日
什么神仙淘宝店才 500 ?我问个图片爬虫项目都要 1000 起步,还是易语言写的
Meteora626
2024 年 10 月 6 日
扫描件 如果清晰,不带 gui 500 估计还有人做。淘宝 500 ,开发能拿到 400 就不错,估计是烂摊子
sarakeal
2024 年 10 月 6 日
没那么复杂,OCR 和 pdf 解析都有限制条件。比如要解析的坐标位置是固定的,就框定范围再解析这样就会准确很多,当然我只试过数字的,其他文本没测试过准确度; pdf 用 python 的 PyMuPDF (fitz)或者 pdfplumber 都可以很快获取到文本,然后得找规律去获取想要的信息,比如是以“通行日期”开头这样去匹配。费用确实不高,即使是我有模板改一下能用的情况下 500 也比较勉强
listen2wind
2024 年 10 月 6 日
@dengjunwen #10 那你直接淘宝去做不就行了?来这里干什么?脱裤子放屁。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1077899

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX