V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
BN5MDKFM
V2EX  ›  程序员

现在是否有抵御网页反爬机制的网页存笔记的开源软件?比如可以加延时参数?

  •  
  •   BN5MDKFM · 103 天前 · 2327 次点击
    这是一个创建于 103 天前的主题,其中的信息可能已经有所发展或是发生改变。
    含多图的网页图文存成笔记,但是大量图片会被替换成纯水印图片

    原图如( https://i10.hoopchina.com.cn/editor/e08a7b98516ecef6f8951c860704c907_w_234_h_329_.jpeg?x-oss-process=image/resize,w_800/format,webp)

    被统一替换为( https://w4.hoopchina.com.cn/images/m/default_img_new.png)

    似乎是触发了反爬虫机制?用了 joplin NOTE 和 Obsidian Web Clipper 都是一样结果。

    现在比较笨的办法就是手动分次选中存取,最后进行笔记合并
    [187 页 PPT ,讲清楚从毛坯到入住全流程!点个赞不过分吧!-家装房产区-虎扑社区]( https://bbs.hupu.com/632795761_75999689795421.html)

    [img][/img]

    PS:不考虑把整个网页存成一整张图片这种难以编辑的方法
    第 1 条附言  ·  103 天前
    最后结帖总结下:最终的标准答案就是 lazy load 的问题。
    我耐心把网页慢慢滚一遍然后扩展就能完整保存下来了!

    感谢 @mercury233
    第 2 条附言  ·  103 天前
    对于大量图片的网页可以用打印预览来检查图片是否彻底加载,即使网页上视觉上加载了(可能还没完全转换为 webp ?),但是对于笔记软件扩展或者“浏览器的网页打印”来说并没有实际上彻底的加载(需要网页慢慢滚才行),

    应该是图片网址后面的服务器参数的造成的独特的问题:

    “x-oss-process=image/resize,w_800/format,webp 是阿里云对象存储服务( OSS )提供的图片处理参数。”
    8 条回复    2025-05-25 00:22:58 +08:00
    w568w
        1
    w568w  
       103 天前   ❤️ 1
    这种反爬一般都是 HTTP Referer
    mercury233
        2
    mercury233  
       103 天前   ❤️ 1
    更像是 lazyload 之类的优化
    NewYear
        3
    NewYear  
       103 天前
    笔记软件带的浏览器插件应该可以解决。
    通过油猴脚本应该也可以,先把 src 变成 base64 的文件值
    可能已经有这样的插件或者油猴脚本了,得找找,或者用 AI 写一个


    说这个我就不得不提一下 QQ 的笔记,截图过去的图片根本就没存,然后随便从其他的笔记里弄一张图片过来代替,而且当场无法发现,过几天缓存没了一看,哦豁。
    sentinelK
        4
    sentinelK  
       103 天前   ❤️ 1
    这个应该只是单纯的图片防盗链。
    也就是说,图片无法显示不是没爬到,而是你在这些快照网站打不开。
    BN5MDKFM
        5
    BN5MDKFM  
    OP
       103 天前
    @sentinelK 谢谢,确实是防盗链的问题
    beyondstars
        6
    beyondstars  
       103 天前
    我对于重要网友一般会长截屏保存,这样完整性比较好,缺点是不便于检索/索引,将来 ai 和笔记软件整合,有望能解决这个问题。
    BN5MDKFM
        7
    BN5MDKFM  
    OP
       103 天前
    @mercury233 最后结帖总结下:最终的标准答案就是 lazy load 的问题。

    我耐心把网页慢慢滚一遍然后扩展就能完整保存下来了!

    向您致以最诚挚的感谢!!!👍
    512357301
        8
    512357301  
       103 天前 via Android
    懒加载本身是为了避免图片太多网页卡死,也能降低服务器、cdn 压力。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   942 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:13 · PVG 05:13 · LAX 14:13 · JFK 17:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.