V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Guanjun
V2EX  ›  上海

命令行抓取当天的新民晚报

  •  
  •   Guanjun · Jun 17, 2011 · 4500 views
    This topic created in 5431 days ago, the information mentioned may be changed or developed.
    说明
    1. 由于中间文件比较多,需要cd到一个空目录再执行下面的命令。
    2. pdftk需要自行安装。

    $ curl 'http://pdf.news365.com.cn/xmpdf/default.asp' | egrep -o '[0-9]+/XM[A-Z0-9]+.pdf' | sed 's!^\(.*\)$!http://pdf.news365.com.cn/xmpdf/\1!' | xargs curl --remote-name-all

    $ pdftk * cat output XM.pdf
    1 replies    1970-01-01 08:00:00 +08:00
    dexter
        1
    dexter  
       Jun 17, 2011
    命令行的生活要大力推广
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   992 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 18:20 · PVG 02:20 · LAX 11:20 · JFK 14:20
    ♥ Do have faith in what you're doing.