镜像网站,原网站的静态怎么爬取

142 天前
 zhangjiashu2023

比如一些 ChatGPT 的镜像站,Midjourney 等等网上都有很多镜像站。这些静态是怎么爬取的呢。有没有懂这块儿的大佬,可付费。

2312 次点击
所在节点    程序员
10 条回复
iApp
141 天前
有没有可能人家不是爬的,只是做了一层流量代理转发
doubu
141 天前
反向代理
qinrui
141 天前
差不多 15 年前做过一个镜像新闻站

用户访问我站的前端页面,我站通过 php 找到对应源站页面,替换掉一些关键词和链接规则,然后显示给用户,同时缓存到本地

下次再有用户访问这个页面,就直接从本地缓存取
zhangjiashu2023
141 天前
@iApp 不是 我问过一个作者 确实不是反代 就是扒了。
saltpi
141 天前
有点类似 web archive ,印象中有这样的软件,输入域名,可以尽可能的爬下所有页面。貌似叫 web archive offline 之类的

https://github.com/ArchiveBox/ArchiveBox
eben
140 天前
有人会使用 python 写个小偷,完全扒下来
mmdsun
140 天前
搜下 ChatGPT pandora ,当时比较火的 ChatGPT 镜像网站。 静态资源不用爬直接本地下载就行
zhangjiashu2023
140 天前
@mmdsun 我的意思就是 pandora 这种类似能把 openai 官方静态给扒下来并且还能适配可用的技术
kkkbbb
140 天前
@qinrui 这不还是爬么
qinrui
139 天前
@kkkbbb 按需爬,有人访问的页面才爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1129456

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX