开发了一个简单的 PHP 爬虫系统,做个轮子,给需要的朋友一点帮助!

2020-04-20 18:02:56 +08:00
 xiaotuzi

背景

自己在一次简单的教学中,给学生讲解并手撸的项目,感觉不错,分享给大家。

项目

实现简单的爬虫系统,可创建多个爬虫,然后写对应的规则,爬取对应的内容,然后导入数据库。 类似火车头、蓝天采集等爬虫系统,目前只是基础版本。当然,轮子已经做好了,后面就根据自己的需求添加功能即可。

开源

码云: https://gitee.com/Cherry_toto/a_simple_php_crawler_system (如果觉得不错,点个 star❤)

演示

http://caiji.test.2wex.com

有任何问题可以在码云里留言给我!

希望对有需要的人一点帮助!

2488 次点击
所在节点    分享创造
6 条回复
wework
2020-04-20 18:08:40 +08:00
keepeye
2020-04-20 18:09:51 +08:00
兄弟 你这代码 不考虑安全的吗?
xiaotuzi
2020-04-20 18:11:28 +08:00
@keepeye 没考虑。。。你帮忙检查下?
xiaotuzi
2020-04-20 18:14:08 +08:00
@wework 看过第一个 querylist,很不错的 html dom,写爬虫很简单。第二个不明觉厉,哈哈,英文不太好。我的是比较简单的吧,适合爬取一些简单的东西,如果要添加 header 这些,还需要增加一些功能,以及处理函数。其实都是比较简单的二次开发啦。
wework
2020-04-20 18:16:13 +08:00
@xiaotuzi 那个 Ultimate Web Scraper 它那个主要是比较方便处理 cookies 以及一些转跳
tikazyq
2020-04-21 16:23:21 +08:00
很类似 crawlab 的可配置爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/664376

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX