在弄一个爬虫框架,类似于 alfred workflow,拖拖拽拽加少量的 script 就可以写出一个爬虫~

2014-03-16 08:48:30 +08:00
 ltebean
前两天突发奇想搞了一个爬虫框架,主要思想借鉴了alfred workflow和ios开发里的storyboard。

目前爬虫的配置都在config.yaml(https://github.com/yucong/spiderman/blob/master/config.yaml)里,demo里从点评的搜索结果页开始爬起,抓取每一家商户的信息

解释一下这个配置文件:
component是一个个功能单元,有处理页面的,有把数据持久化到db的
segue是连接各个component的(to:发送到哪个component,func:把什么数据发过去,通过offer函数)
比如shopList的两个segue,第一个segue是把下一页的链接也发给自己处理,第二个是把商户页的链接交给shop这个component处理~

附上项目地址 https://github.com/yucong/spiderman

目前主要的核心逻辑已经都实现了,就差把配置文件弄成像storyboard那样的可视化编辑了~

大家有什么好的js库推荐么~
3436 次点击
所在节点    分享创造
2 条回复
Comdex
2014-03-16 12:14:51 +08:00
有木有用golang实现啊?
ltebean
2014-03-16 19:20:33 +08:00
@Comdex 目前是用nodejs实现的 其实逻辑也不复杂 主要就是处理segue这块 在lib下的pageProcessor.js里

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/104490

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX