分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!

2017-07-22 16:44:44 +08:00
 wyan453351466

访问地址:

http://www.yanshuo.me/r/18douban

感觉 PHP 的爬虫并没有比 Python 差多少啊?异步并发爬取、dom 解析什么的 PHP 做起来都毫无压力的好嘛!

下面贴一下代码,自己封装的一个小的爬虫‘框架’(应该还称不上是框架吧,哈哈)。其实核心主要还是基于两个 composer 包,guzzlehttp/guzzle 和 symfony/dom-crawler。自己在应用层面做了一下封装,比如记录日志、断点续爬、失败请求重试、过滤重复请求、404 页面加入 URL 黑名单。

13453 次点击
所在节点    程序员
91 条回复
lzhr
2017-07-22 17:06:28 +08:00
你是从哪里知道的这些小组
duola
2017-07-22 17:12:56 +08:00
@lzhr 老湿司,路子多。
hizoubin
2017-07-22 17:13:22 +08:00
666
wyan453351466
2017-07-22 17:14:31 +08:00
@lzhr 很简单啊。。你只要找到一个大尺度妹子图小组,比如“女神大本营”。然后不断地点右侧的相关小组就 OK 了。。。可以一直延伸出 N 多的相关小组。。
akira
2017-07-22 17:17:15 +08:00
好像有图片是重复的
littleylv
2017-07-22 17:19:29 +08:00
老司机。。。
hemoely
2017-07-22 17:19:31 +08:00
老司机以后维护吗
wyan453351466
2017-07-22 17:25:34 +08:00
@hemoely 这是长期维护的项目。提供刚给广大程序员的福利哈
wyan453351466
2017-07-22 17:27:45 +08:00
@akira 对,这是因为有的妹子在不同的小组发了相同的帖子。然后我这边爬取到就重复了。。标题和链接无法区分,这种应该只能通过图片相似度来判定重复了。

还没有查询相关的资料> <
xx19941215
2017-07-22 17:36:43 +08:00
求露珠代码学习一下啊
ek66
2017-07-22 17:37:29 +08:00
请不要害羞ᕦ(ò_óˇ)ᕤ
imcocc
2017-07-22 17:47:14 +08:00
我们不学习你的代码,我们学习你找图的姿势(ง ˙o˙)ว
potatowish
2017-07-22 17:56:39 +08:00
单身?
wyan453351466
2017-07-22 18:55:39 +08:00
@xx19941215 以后我会抽个时间整理一下代码,出一份文档。到时候开源出来哈
wyan453351466
2017-07-22 18:56:20 +08:00
@imcocc 😝
wyan453351466
2017-07-22 18:56:40 +08:00
@potatowish 嗯,身份暴露了。。。
jago
2017-07-22 18:57:43 +08:00
我也爬过,请不要害羞(⊙_⊙)
wyan453351466
2017-07-22 19:04:00 +08:00
@jago 哈哈,老司机都懂!
ex44559
2017-07-22 19:23:18 +08:00
我简直忍不住说一句:干得漂亮~
zhucha
2017-07-22 19:57:54 +08:00
请问哪儿有言说邀请码呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX