现在是否有抵御网页反爬机制的网页存笔记的开源软件?比如可以加延时参数?

155 天前
 BN5MDKFM
含多图的网页图文存成笔记,但是大量图片会被替换成纯水印图片

原图如( https://i10.hoopchina.com.cn/editor/e08a7b98516ecef6f8951c860704c907_w_234_h_329_.jpeg?x-oss-process=image/resize,w_800/format,webp)

被统一替换为( https://w4.hoopchina.com.cn/images/m/default_img_new.png)

似乎是触发了反爬虫机制?用了 joplin NOTE 和 Obsidian Web Clipper 都是一样结果。

现在比较笨的办法就是手动分次选中存取,最后进行笔记合并
[187 页 PPT ,讲清楚从毛坯到入住全流程!点个赞不过分吧!-家装房产区-虎扑社区]( https://bbs.hupu.com/632795761_75999689795421.html)

[img][/img]

PS:不考虑把整个网页存成一整张图片这种难以编辑的方法
2399 次点击
所在节点    程序员
8 条回复
w568w
155 天前
这种反爬一般都是 HTTP Referer
mercury233
155 天前
更像是 lazyload 之类的优化
NewYear
155 天前
笔记软件带的浏览器插件应该可以解决。
通过油猴脚本应该也可以,先把 src 变成 base64 的文件值
可能已经有这样的插件或者油猴脚本了,得找找,或者用 AI 写一个


说这个我就不得不提一下 QQ 的笔记,截图过去的图片根本就没存,然后随便从其他的笔记里弄一张图片过来代替,而且当场无法发现,过几天缓存没了一看,哦豁。
sentinelK
154 天前
这个应该只是单纯的图片防盗链。
也就是说,图片无法显示不是没爬到,而是你在这些快照网站打不开。
BN5MDKFM
154 天前
@sentinelK 谢谢,确实是防盗链的问题
beyondstars
154 天前
我对于重要网友一般会长截屏保存,这样完整性比较好,缺点是不便于检索/索引,将来 ai 和笔记软件整合,有望能解决这个问题。
BN5MDKFM
154 天前
@mercury233 最后结帖总结下:最终的标准答案就是 lazy load 的问题。

我耐心把网页慢慢滚一遍然后扩展就能完整保存下来了!

向您致以最诚挚的感谢!!!👍
512357301
154 天前
懒加载本身是为了避免图片太多网页卡死,也能降低服务器、cdn 压力。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1134016

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX