Spiderless - 一个基于 AWS Lambda 的"即点即爬"爬虫应用

2018-12-15 10:28:10 +08:00
 8bits

网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com

技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less

至于功能,动图走起!

5946 次点击
所在节点    分享创造
24 条回复
rayhy
2018-12-15 10:41:59 +08:00
弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情?
d5
2018-12-15 11:00:32 +08:00
支持
rayingecho
2018-12-15 11:09:29 +08:00
思路很棒,已 star
8bits
2018-12-15 11:23:24 +08:00
@rayhy 目前还没有用过国内的 Serverless 服务,如果有机会做小程序开发的话,倒还真想体验下腾讯云函数
abmin521
2018-12-15 12:08:55 +08:00
量大的话需要 MQ 吧
isCyan
2018-12-15 12:54:33 +08:00
AWS 全家桶实战,支持一个
8bits
2018-12-15 13:12:17 +08:00
@abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发
Senventise
2018-12-15 14:20:13 +08:00
建议防一下滥用,貌似可以访问墙外地址
miao
2018-12-15 14:21:01 +08:00
只能爬文字?
8bits
2018-12-15 14:49:46 +08:00
@Senventise 的确哈,因为爬虫访问“外网”是不受限制的...
8bits
2018-12-15 14:50:57 +08:00
@miao 嗯,目前只支持静态网页,在 AWS Lambda 上用 puppeteer 比较费劲
binarymann
2018-12-15 17:52:32 +08:00
不错不错,正好学习下 serverless
8bits
2018-12-15 19:16:06 +08:00
@d5
@rayingecho
@isCyan
@binarymann
谢谢支持!😊
tedd
2018-12-15 21:36:26 +08:00
已订阅了个站的更新,谢谢分享🙏
bbmmwan886
2018-12-16 04:47:07 +08:00
貌似面向国外的 不知道会不会更新中文的 英文用起来还是不太习惯😅😅😅
8bits
2018-12-16 09:06:13 +08:00
@bbmmwan886 操作很简单啦 😊
landi
2018-12-17 15:02:44 +08:00
网站很漂亮啊,ui 是自己设计的吗。。。
8bits
2018-12-17 15:17:09 +08:00
@landi 谢谢,嗯 😊
dezhou9
2018-12-17 17:44:45 +08:00
有点简单啊,高中生水平,朋友。已 star
evanvane
2018-12-18 07:44:24 +08:00
请问下,第二张图是怎么生成的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/517750

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX