利用 Cloudflare Worker 撸了一个在线爬虫,有需要的朋友可以看看。

2020-12-20 11:39:25 +08:00
 sedgwickz

项目地址:

https://github.com/sedgwickz/jsonHunter

在线网站:

https://jsonhunter.vercel.app/

演示图:

如果觉得对你有用帮忙给个 star🧡哈,根据情况可以继续完善。

6989 次点击
所在节点    程序员
20 条回复
kidlj
2020-12-20 11:58:10 +08:00
很棒。有一个问题想问,serverless 架构每个运行的实例出口 IP 是一样的吗?如果每次不一样,那可太适合爬虫了,不过我猜可能性不大。
vagrantear
2020-12-20 12:10:26 +08:00
已经 star 了,感觉还不戳
sedgwickz
2020-12-20 12:14:24 +08:00
@kidlj 这正是利用 worker 的原因,还在实验中。。。😀
sedgwickz
2020-12-20 12:16:43 +08:00
@kidlj 即使一个同一个 worker 是固定 ip,可以想像要是创建 N 个 worker,实现类似 Load balance 效果,比市面上免费的代理 ip 应该好多了。
WordTian
2020-12-20 12:32:49 +08:00
不过这类要封也容易,cf 有固定 ip 段的
sedgwickz
2020-12-20 12:36:26 +08:00
@WordTian 其实项目初衷也不是让大家去大规模去爬取哈,主要帮助大家开发,类似方便快捷的获取 jsonplaceholder 的效果。
echowuhao
2020-12-20 12:47:16 +08:00
你要是拿来做爬虫,估计违反人家的用户条款。
lizheming
2020-12-20 13:12:18 +08:00
jinliming2
2020-12-20 14:29:10 +08:00
爬取网页的话,会自动把网页中的 http 链接替换成 https,这是 worker 自动搞得😂
no1xsyzy
2020-12-20 17:44:57 +08:00
之前就听人说过了,而且对于爬套了 CF 的网站有奇效,能绕过 CF 的质询(白名单
Juszoe
2020-12-20 17:54:27 +08:00
@no1xsyzy 哈哈,用 CF 对付 CF 可还行
musi
2020-12-20 18:02:36 +08:00
@no1xsyzy 这就是用魔法打败魔法么
docx
2020-12-20 19:57:38 +08:00
@lizheming 应该只是拿 vercel 作为 cdn
sampeng
2020-12-20 20:23:07 +08:00
serveless 迟早被玩坏…
mamahaha
2020-12-20 23:23:21 +08:00
这配色真是用心良苦
BwNVlwSq
2020-12-20 23:28:07 +08:00
这 LOGO,好家伙🤣
vilic
2020-12-21 00:24:21 +08:00
我感觉这个 HTML 到 JSON 的映射挺有意思啊,有考虑过单独做成一个库吗?
netnr
2020-12-21 08:57:25 +08:00
cfw 做代理没得问题,但是滥用被投诉就有问题(我前面的跨域代理绑定的域名已经被永封了)
vercel 做代理会收到警告邮件要求整改
AlexPUBLIC
2020-12-21 09:04:06 +08:00
@no1xsyzy 我刚刚去看了一眼我的网站访问记录,cf 的 firewall rule 对 cf 的 ip 免疫
fuxkcsdn
2020-12-21 14:08:33 +08:00
cf worker 根据 UA 就封得了了,UA 改不了我记得(刚出来那会测试的)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/737178

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX