shell curl 如何循环抓取 html 里的 meta refresh 跳转地址?

2018-09-10 16:54:02 +08:00
 qsbaq
每个 html 页面里都有 <meta http-equiv="refresh" content="3; url=http://laoji.org>'; 这样的跳转,如何使用 shell 的 curl 循环抓取这个 url 进行跳转。
已经试 curl -L 的参数,因为这里没有发送 header 文件头,所以这里不会继续抓取。
求大佬指点一下~
3143 次点击
所在节点    Linux
12 条回复
golmic
2018-09-10 16:56:42 +08:00
curl 拿到 html,正则匹配 url,再 curl 跟进
qsbaq
2018-09-10 17:01:09 +08:00
@golmic 这个是不是应该用 shell 来写,可惜不会写 shell。求指导~
lihongjie0209
2018-09-10 17:03:30 +08:00
用 python 吧
raysonx
2018-09-10 18:39:20 +08:00
你确定你需要的不是无头浏览器?还有的页面是用 JavaScript 进行跳转的呢,比如 location.href=http://example.com
Lostars
2018-09-10 19:05:57 +08:00
发个网址看看
golmic
2018-09-10 19:45:37 +08:00
shell 写最简单,我看你标题里写着 shell 就说了 shell 的思路。Python 的话也很方便,requests、re 就搞定了,不到 10 行
golmic
2018-09-10 19:45:59 +08:00
发个网址吧,我给你写了
qsbaq
2018-09-12 17:56:14 +08:00
@golmic 我写的是 WordPress 的采集插件,这边有兴趣的话可以加我 QQ 私聊
qsbaq
2018-09-12 17:57:26 +08:00
@golmic QQ:3666-098-77
qsbaq
2018-09-12 17:58:30 +08:00
@Lostars 写的是 WordPress 采集插件 wp-jpost,这边想放入脚本里自动运行。所以上来问一下思路
golmic
2018-09-12 18:00:33 +08:00
@qsbaq #10 php 我不会写,shell 或 Python 可以顺手帮你写了。。
qsbaq
2018-09-12 20:03:47 +08:00
@golmic 大佬来帮写一个 shell 吧~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/487904

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX