开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

2018-05-04 10:59:11 +08:00
 zorlan

php+mysql 开发的数据采集发布系统

支持 php5.3~php7

支持多级、多页、分页抓取

支持正则、xpath、json 匹配内容

可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

实现定时定量全自动采集发布

界面自适应宽度,手机也可以操作采集

开源地址: https://github.com/zorlan/skycaiji

8070 次点击
所在节点    程序员
33 条回复
zorlan
2018-05-04 19:18:14 +08:00
@nosay tp3.2 暂时还是很稳定的,tp5 更新太频繁,等稳定了会考虑升级
VgV
2018-05-05 00:24:32 +08:00
@zorlan 这换行去掉了,开放开源思想不坚定啊。
xttttt
2018-05-05 02:16:41 +08:00
为什么汉化只有一半看着好蛋疼
zorlan
2018-05-05 09:29:29 +08:00
@VgV 行业竞争激烈,你懂的~
zorlan
2018-05-05 09:30:34 +08:00
@xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢!
files
2018-05-05 10:06:58 +08:00
去掉换行符不让别人修改,这也叫开源?
zorlan
2018-05-05 10:35:31 +08:00
@files 呵呵,难道不知道有个功能叫 ctrl+a ctrl+i 吗?再说了这个软件重要的是功能,你改源码干嘛?
zorlan
2018-05-05 10:47:54 +08:00
@akira 谢谢支持,有专门技术人员维护的,大家只要反馈 bug 就可以的
zorlan
2018-05-06 08:20:54 +08:00
哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4
hxy100
2018-05-06 14:00:10 +08:00
@zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好!
zorlan
2018-05-06 14:29:37 +08:00
@hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了?
mmd1989
2018-05-10 14:24:21 +08:00
xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢
eluotao
2018-05-12 20:38:01 +08:00
@zorlan 我有一个网站 无法采集呢.请问如何解决?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/452020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX