分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!

2017-07-22 16:44:44 +08:00
 wyan453351466

访问地址:

http://www.yanshuo.me/r/18douban

感觉 PHP 的爬虫并没有比 Python 差多少啊?异步并发爬取、dom 解析什么的 PHP 做起来都毫无压力的好嘛!

下面贴一下代码,自己封装的一个小的爬虫‘框架’(应该还称不上是框架吧,哈哈)。其实核心主要还是基于两个 composer 包,guzzlehttp/guzzle 和 symfony/dom-crawler。自己在应用层面做了一下封装,比如记录日志、断点续爬、失败请求重试、过滤重复请求、404 页面加入 URL 黑名单。

13998 次点击
所在节点    程序员
91 条回复
wyan453351466
2017-07-23 12:22:41 +08:00
@halicando 爬取快的话会的。所以我控制了爬取频率
caniuse
2017-07-23 14:14:41 +08:00
第 3 张可以
sobigfish
2017-07-23 15:05:36 +08:00
去重复的;
脸部识别什么的
@bumz 大哥看见分号了么?学过中文么? 因为他有些采集到是没有妹子的照片,是物品的这种情况
loveqianool
2017-07-23 15:40:37 +08:00
也可以爬一下某几个贴吧,比如萝莉吧
wyan453351466
2017-07-23 16:18:11 +08:00
@loveqianool 嗯,以后可以关注下。。其他的高质量的妹子图多的网站。例如 lofter,还有知乎。。
bumz
2017-07-23 17:02:09 +08:00
@sobigfish 大哥学过中文吗?中文中有最后以分号结尾而不是句号结尾的吗???

脸部识别?开玩笑,大多数妹子图都只有胸和屁股

应该上鉴黄(😊)
ericgui
2017-07-23 17:08:55 +08:00
@wyan453351466 好的, 等你开源 ,拜读一下
huage
2017-07-23 17:17:44 +08:00
欢迎写一个探探和他趣的爬虫,各位坐稳了!
ericgui
2017-07-23 17:21:08 +08:00
@wyan453351466 你的这个言说的站,是用 reddit 的开源的代码做的吧?感觉很熟悉的感觉
wyan453351466
2017-07-23 17:22:37 +08:00
@ericgui 对,这个网站的确是模仿的 reddit 网站哈。但是源代码不是用的 reddit 开源的。。是自己写的。。
qq1455018613
2017-07-23 17:23:21 +08:00
老司机
xiahei
2017-07-23 17:28:42 +08:00
ericgui
2017-07-23 17:41:41 +08:00
@wyan453351466 挺牛逼
SkyKoo
2017-07-23 17:44:09 +08:00
同样的图片应该可以用 MD5 判断下
wyan453351466
2017-07-23 20:13:50 +08:00
@SkyKoo 嗯,回头试一下
wyan453351466
2017-07-23 20:50:47 +08:00
@ericgui 谢谢!
hancc
2017-07-23 21:09:41 +08:00
哎,自从上了 V 站,身体一天不如一天。
wyan453351466
2017-07-23 21:54:50 +08:00
@hancc 哈哈,这句话好眼熟。。
foursking
2017-07-23 22:01:25 +08:00
楼主 如果我直接爬你的站会介意吗?如果不介意,那就不客气了啊
wyan453351466
2017-07-23 22:07:40 +08:00
@foursking 可以爬,就是希望控制一下爬取频率哈。。。爬太快我怕网站扛不住😂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX