可能是目前最好用的国产 PHP 爬虫框架 - XCrawler 0.1 版本发布

2018-04-24 11:09:56 +08:00
 wyan453351466

自己写的一个爬虫框架哈,第一个版本。请大家轻喷。

不知道为什么提起爬虫很多人第一个想起来的是 Python。其实 PHP 写爬虫也可以写的很好,而且个人感觉并不比前者差啊。而且对于 PHP 作为主语言的人来说,用 PHP 写爬虫也更顺手一些。

特性:

Github 地址: https://github.com/wyan001/xcrawler

查看文档: https://xcrawler.yanshuju.com/docs/

微信交流群

5132 次点击
所在节点    程序员
12 条回复
drug
2018-04-24 11:50:22 +08:00
膜拜言说大佬_(:з」∠)_
wwek
2018-04-24 11:54:05 +08:00
支持~
选 symfony/dom-crawler 绝对是最佳
之前写过一遍博客说 写爬虫时 PHP 解析 HTML 最高效的方法那就是用 DomCrawler!
ben1024
2018-04-24 12:12:40 +08:00
phpspider >.<
zqjilove
2018-04-24 12:23:43 +08:00
phpspider >.<
zqjilove
2018-04-24 12:24:32 +08:00
phpspider 用过几次,感觉还不错。简单明了。
wyan453351466
2018-04-24 14:58:36 +08:00
@zqjilove phpspider 的多并发爬取好像是开了多个子进城去爬的。xcrawler 的并发爬取是利用的 php 内置的 curl multi,所以有更高的性能和更低的消耗。另一方面 xcrawler 在爬虫核心组件上直接引用了成熟的组件,所以稳定性上会有更好的表现( Phpspider 是自己造的轮子)。还有一些其他的好处等待你阅读文档去发现🤣
wyan453351466
2018-04-24 14:59:23 +08:00
@wyan453351466 子进程,写错了
guke1991
2018-04-24 19:21:04 +08:00
下次写爬虫试试
Seth8277
2018-04-24 21:43:05 +08:00
lusizeng
2018-04-24 22:27:50 +08:00
有自动 IP 代理不?
wyan453351466
2018-04-24 23:00:55 +08:00
@Seth8277 手机端文档有点 bug,还没处理😂(明天解决下)
jisibencom
2018-04-25 10:56:27 +08:00
不是 WEB 操作的,不会用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/449362

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX