分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!

2017-07-22 16:44:44 +08:00
 wyan453351466

访问地址:

http://www.yanshuo.me/r/18douban

感觉 PHP 的爬虫并没有比 Python 差多少啊?异步并发爬取、dom 解析什么的 PHP 做起来都毫无压力的好嘛!

下面贴一下代码,自己封装的一个小的爬虫‘框架’(应该还称不上是框架吧,哈哈)。其实核心主要还是基于两个 composer 包,guzzlehttp/guzzle 和 symfony/dom-crawler。自己在应用层面做了一下封装,比如记录日志、断点续爬、失败请求重试、过滤重复请求、404 页面加入 URL 黑名单。

13489 次点击
所在节点    程序员
91 条回复
wyan453351466
2017-07-22 23:21:24 +08:00
@tgxh 是会被封 ip 的。我这边也是通过控制爬取频率来解决这个问题的。。每 2 秒钟爬取一个页面。。速度超慢吧?不过还好一个小时可以爬 1000 多个页面了。
wyan453351466
2017-07-22 23:23:05 +08:00
@magensky 按照内容在原网站被喜欢 /赞的数量来评分、爬取的
xyx119
2017-07-22 23:35:40 +08:00
你这个网站看图太累了,手都给老子点麻了。。。
linhaijian
2017-07-22 23:38:46 +08:00
老司机求带,坐等开源
wyan453351466
2017-07-22 23:53:36 +08:00
@xyx119 现在确实图片浏览体验不太好。。后期会增加图片浏览模式的
sobigfish
2017-07-22 23:53:59 +08:00
应该更深度一点,-。-
机器学习打 tag ;
去重复的;
脸部识别什么的
wyan453351466
2017-07-22 23:55:11 +08:00
@sobigfish 哈哈,是的。现在就没那么智能了,纯粹是根据不同的数据源,还有关键词匹配来打 tag 的
sobigfish
2017-07-23 00:04:16 +08:00
eyp82
2017-07-23 02:20:52 +08:00
这这这。。。快拿我的补品来!
bumz
2017-07-23 03:47:43 +08:00
@wyan453351466 直接用微信屏蔽图片的方法就能快速图片去重——哈希
bumz
2017-07-23 03:58:38 +08:00
@sobigfish 脸部识别去重,别开玩笑了

此外你给的是 face detection,不是 face recognition

face detection 顶多就是把图片中的脸框起来,对去重有毛用?

至于那些面部识别的先进的网络——你先给服务器整个 TitanX 去?
wyan453351466
2017-07-23 07:08:57 +08:00
@bumz 不同图片大小(但实际图片相同)的也能识别吗?
insoxin
2017-07-23 08:42:04 +08:00
@wyan453351466 源码分享吗🌚
wyan453351466
2017-07-23 10:10:50 +08:00
@insoxin 过段时间会开源的
cjjia
2017-07-23 10:15:05 +08:00
看“最新”栏目,看到一个裸男,简直辣眼睛!!!!
bumz
2017-07-23 10:23:18 +08:00
@wyan453351466 你要做图片内容去重,你就上 TitanX 显卡集群

但是大多数重复发帖都是完全同样的图片,哈希足够了
zjlin1984
2017-07-23 10:31:10 +08:00
路过,赞。
coolypf
2017-07-23 11:16:46 +08:00
为什么都是 18+?
wyan453351466
2017-07-23 11:45:10 +08:00
@coolypf 18+的意思是 18 岁以下禁止访问。。
halicando
2017-07-23 11:47:14 +08:00
豆瓣会不会封你的 ip ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX