云采集爬虫系统, PHP 编写,无缝接入网站实现自动采集发布数据

2018-07-19 11:19:10 +08:00
 zorlan

下载地址: https://github.com/zorlan/skycaiji

好多爬虫都是 python 的,作为世界上最好的语言,做爬虫怎么少得了 php 呢!

蓝天采集器 可视化的采集系统(和 cms 一样使用),可以和网站对接,将采集到的数据实时入库 无需你会代码,直接编写采集规则绑定数据库入库即可!

主要功能:

全自动定时定量采集

绝大多数文章智能识别

支持正则表达式、xpath、json 匹配数据

支持多级、多页、分页采集

几乎能采集任何形式的数据内容(小说、影视、列表数据等等)

无缝耦合各种 cms 程序实现免登陆发布数据

还可以直接导入数据库、导出 excel、生成 api 接口等等

图片下载到本地服务器

ip 代理等等

6928 次点击
所在节点    PHP
19 条回复
qianmeng
2018-07-19 14:06:24 +08:00
简单看了看文档,挺不错
xxx749
2018-07-19 14:09:19 +08:00
js 天下第一!
imdong
2018-07-19 14:21:33 +08:00
确实还是挺简单的,先标记一下,感觉后期能用到。
Rekkles
2018-07-19 14:22:00 +08:00
可以 已 star
zqjilove
2018-07-19 16:29:55 +08:00
已 star,粗略的看文档,和老牌的类似工具,差不多。貌似没看到,可以采集列表数据信息,同时和内容字段一起入库的情况。不知道是否功能存在?
baiyun888
2018-07-19 17:56:32 +08:00
很不错哦
xpath 是不是有些类似 dom 采集
jamesliu
2018-07-19 18:07:06 +08:00
star
1O
2018-07-19 18:09:43 +08:00
已 star
zuohuadong
2018-07-19 18:11:17 +08:00
php-fpm 就不要拿出来说了~~ 做采集真的很低效。
这类任务,老老实实异步非阻塞
chinaglwo
2018-07-19 18:15:43 +08:00
动态页可以采集吗
zorlan
2018-07-19 20:10:57 +08:00
@zqjilove 文档还没更新,功能都是有的
zorlan
2018-07-19 20:11:53 +08:00
@baiyun888 谷歌调试能直接复制元素 xpath
zorlan
2018-07-19 20:13:12 +08:00
@zuohuadong 大佬,不妨分享下经验
zorlan
2018-07-19 20:14:12 +08:00
@chinaglwo ajax 加载内容吗?没那么强大,可以通过分析 url 抓取
richChou
2018-07-19 20:24:16 +08:00
厉害,已 star 👍🏻
mingyun
2018-07-19 23:13:14 +08:00
注意:PHP5.3dev 版本和 PHP6 均不支持 表示没有见过 php6.。。
zorlan
2018-07-20 22:37:56 +08:00
@mingyun tp 里的
zorlan
2018-07-20 22:42:26 +08:00
@mingyun 支持 php5.3 到 php7
e6nian
2018-08-01 22:46:42 +08:00
@zorlan 看完你的 licenses http://www.skycaiji.com/licenses
再看你的 composer.json 相互都是冲突的,我觉得应该直接从 github 上直接 fork 就好
:)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472267

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX