如何把别人的网页整个抓取过来,然后修改网页上的某些内容之后把网页挂到自己的服务器上显示出来?

2016-05-06 18:15:56 +08:00
 misaka19000

不要喷我 ...

公司准备做一个产品,用户可以输入一个链接,然后我们帮他做这个链接的页面推广,但是我们要在页面上加上一些内容然后再显示给最终用户能够看到,请问这个要怎么做? PS:这个页面应该挂在我们公司的域名下显示以方便进行下一步的操作。

爬虫不是没想过,但是感觉有点过于麻烦了,所以想请问大家有没有一些更好的想法 ...

10160 次点击
所在节点    问与答
21 条回复
kindjeff
2016-05-06 18:18:07 +08:00
首先要确定不违法么?
bdbai
2016-05-06 18:23:17 +08:00
把目标网页放在 iframe 里
bazingaterry
2016-05-06 18:23:38 +08:00
nginx 反代?
JiShuTui
2016-05-06 18:23:40 +08:00
步骤你已经写出来了
1 、用户输入网址,提交
2 、服务器抓取对应网页内容,做替换,输出
Syc
2016-05-06 18:23:51 +08:00
7ghost
Tink
2016-05-06 18:25:17 +08:00
nginx reverse proxy
dalaomj
2016-05-06 18:25:30 +08:00
反代
实时爬虫
misaka19000
2016-05-06 18:36:58 +08:00
大家可能没有明白我的意思

我的意思是用户可以在某一个页面输入好一个网页的链接,然后他点击保存,数据就保存到我们的数据库了

之后,在这个用户的个人页面,人们可以看到他保存的这个链接,点击这个链接,实际上进入的是我们公司的网址,但是这个现在被看到的页面和链接的源网页基本上是一样的,除了我们稍微需要添加的一小部分内容之外
lyragosa
2016-05-06 18:38:27 +08:00
@misaka19000 你看,你自己都把详细步骤全部说完了啊
tabris17
2016-05-06 18:40:34 +08:00
不就是个 web 代理么
lneoi
2016-05-06 18:42:44 +08:00
关注关注。我刚好也需要做这个,只是想网目标网页增删点东西,但不懂怎么实现。
bdbai
2016-05-06 20:14:00 +08:00
单存网页的话目测外部资源(包括样式)全跪,坐等更好的方案。
cuebyte
2016-05-06 20:16:45 +08:00
对你这样的问题,我可以回答一句无可奉告 曰..曰
manfay
2016-05-06 20:17:19 +08:00
这简直就是个 read it later 或 Evernote 剪藏的功能嘛
just1
2016-05-06 20:42:48 +08:00
nginx 反代
url 带上网址
动态设置反代域名

更复杂涉及存数据库用 lua
mirrosite
2016-05-07 07:51:41 +08:00
Stupitch
2016-05-07 08:39:49 +08:00
@misaka19000 你的意思就是要做个类似快照的功能,但是同时在快照上要加上自己的广告水印?好像这种技术也挺常见的,虽然我完全不会。我个人倒是建议不如专门搞一块区域放广告或者搞一个类似于水印的东西覆盖在网页上输出,这样既方便又不会严重影响用户体验。
Exin
2016-05-07 09:31:02 +08:00
感觉像是搜索引擎会提供的 snapshot
misaka19000
2016-05-07 13:54:30 +08:00
@just1 能不能更详细点?
ming2281
2016-05-07 16:38:50 +08:00
犹记得 curl/wget 有一个整个网站下载选项, 其初始用处是备份网站的

应该符合楼主场景

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/276830

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX