分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!

2017-07-22 16:44:44 +08:00
 wyan453351466

访问地址:

http://www.yanshuo.me/r/18douban

感觉 PHP 的爬虫并没有比 Python 差多少啊?异步并发爬取、dom 解析什么的 PHP 做起来都毫无压力的好嘛!

下面贴一下代码,自己封装的一个小的爬虫‘框架’(应该还称不上是框架吧,哈哈)。其实核心主要还是基于两个 composer 包,guzzlehttp/guzzle 和 symfony/dom-crawler。自己在应用层面做了一下封装,比如记录日志、断点续爬、失败请求重试、过滤重复请求、404 页面加入 URL 黑名单。

13998 次点击
所在节点    程序员
91 条回复
foursking
2017-07-23 22:10:16 +08:00
@wyan453351466 放心放心
siyiye
2017-07-23 22:17:04 +08:00
来个每月分期打包下载吧~~~
dreamery
2017-07-23 22:20:35 +08:00
不错👍
wyan453351466
2017-07-23 22:44:24 +08:00
@siyiye 后期可以考虑搞一个。。传到百度云盘。。
pagict
2017-07-24 08:07:07 +08:00
我发现豆瓣各个大尺度的小组已成为新手爬虫项目的基本源了 哈哈😂
aksoft
2017-07-24 09:35:41 +08:00
还可以并发了?
wyan453351466
2017-07-24 09:49:33 +08:00
@aksoft 可以啊。。
wyan453351466
2017-07-24 11:40:38 +08:00
@dreamery 谢谢!
wyan453351466
2017-07-29 15:16:03 +08:00
plpptp
2017-08-13 13:02:24 +08:00
404
zonzin
2017-08-16 19:42:23 +08:00
说好的开源呢。等

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX