V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hackingwu
V2EX  ›  程序员

有什么办法吧一个网站上的文章都爬取下来吗?

  •  
  •   hackingwu ·
    hackingwu · 198 天前 · 1680 次点击
    这是一个创建于 198 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

    2G
        1
    2G  
       198 天前
    用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
    hackingwu
        2
    hackingwu  
    OP
       198 天前
    @2G 我们可以去触发插件的按钮吗
    oneisall8955
        3
    oneisall8955  
       198 天前
    爬虫爬得好
    ingdawn
        4
    ingdawn  
       198 天前
    坐牢坐到老
    seamonster
        5
    seamonster  
       198 天前
    真刑啊,日子越来越有判头了
    zelentre
        6
    zelentre  
       198 天前
    很刑.
    HankLu
        7
    HankLu  
       198 天前
    很简单
    ztcaoll222
        8
    ztcaoll222  
       198 天前
    先这样
    HashV2
        9
    HashV2  
       198 天前
    再这样
    tojike
        10
    tojike  
       198 天前
    进去进得早
    yunyuyuan
        11
    yunyuyuan  
       198 天前
    然后再这样
    nepiedg
        12
    nepiedg  
       198 天前
    最后在这样
    jingcoco
        13
    jingcoco  
       198 天前
    有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
    kasusa
        14
    kasusa  
       198 天前
    python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
    就这么个流程吧。
    不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
    caicaiwoshishui
        15
    caicaiwoshishui  
       198 天前 via iPhone
    楼上队形笑死我
    2G
        16
    2G  
       197 天前
    @hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
    solopython
        17
    solopython  
       197 天前
    试试 Newspaper3k
    muzuiget
        18
    muzuiget  
       197 天前
    写个浏览器扩展就可以了,专事专办。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1397 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:33 · PVG 01:33 · LAX 09:33 · JFK 12:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.