首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iwukong
V2EX  ›  程序员

有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

  •  
  •   iwukong · 12 天前 · 1401 次点击
    有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

    比如披露易里的抓取 pdf 的报表
    第 1 条附言  ·  9 天前
    要在线抓取披露易里的 PDF,然后提取里面数据,然后生成 EXCEL,不要下载下来的
    20 条回复    2020-08-04 22:03:50 +08:00
    redeemer1001
        1
    redeemer1001   12 天前
    没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
    Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5.
    摘自 https://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26
    shiny
        2
    shiny   12 天前
    做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者关键词匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有公司没有把格式写的完完全全一样。
    要是数据项第三方库有,用第三方的更省事,比如 tushare
    ladypxy
        3
    ladypxy   12 天前 via iPhone
    Word 打开 pdf,直接复制到 excel
    gladuo
        4
    gladuo   12 天前
    jumpshen
        5
    jumpshen   12 天前 via iPhone
    正好也在查这方面的资料
    whileFalse
        6
    whileFalse   12 天前
    OCR 试试?
    0ranger
        7
    0ranger   12 天前 via iPhone
    白描 ocr 据说可以,不过我没成功
    whi147
        8
    whi147   12 天前 via iPhone
    最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
    whi147
        9
    whi147   12 天前 via iPhone
    还有 wxexcel
    hwlhwlxyz
        10
    hwlhwlxyz   12 天前
    如果不是图片的话,我用过 tabula,还挺好用的,不知道你的格式是什么样子的。https://github.com/tabulapdf/tabula
    heguangyu5
        11
    heguangyu5   12 天前 via iPhone
    mupdf +1

    mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用工具,做格式转换、文字、图片、字体提取都很好用。
    iwukong
        13
    iwukong   9 天前
    @dayeye2006199 这的花多少钱
    iwukong
        14
    iwukong   9 天前
    @jumpshen 找到了吗
    iwukong
        15
    iwukong   9 天前
    @ladypxy 1 万份咋办
    ladypxy
        16
    ladypxy   9 天前
    @iwukong python 写个程序自动调用 word 啊,网上大把代码
    iwukong
        17
    iwukong   9 天前
    @whi147 成功了吗 那些数据网站如何做的 wind chioce 理杏仁等
    dayeye2006199
        18
    dayeye2006199   9 天前
    @iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
    whi147
        19
    whi147   9 天前 via iPhone
    @iwukong 工作代码不易公开,成功是肯定成功的,你就看下我用的几个库,自己也能摸索出来
    iwukong
        20
    iwukong   8 天前
    @dayeye2006199 关键我是想要的是
    1.自动抓取网上的
    2.自动入库
    他这个只是每一个一个抓取吧
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2936 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:59 · PVG 19:59 · LAX 04:59 · JFK 07:59
    ♥ Do have faith in what you're doing.