野生程序员斗鱼直播写爬虫,抓双十一秒杀商品

2016-11-06 13:01:01 +08:00
 laoyuan
爬虫写好了再写个网站把商品列表挂出来,今年准备全部开源。
直播地址 http://www.douyu.com/laoyuan
项目地址 https://github.com/laoyuan/wanggoumiji
6351 次点击
所在节点    分享创造
32 条回复
yidinghe
2016-11-06 13:56:06 +08:00
666666
Joan
2016-11-06 14:08:21 +08:00
666666
laoyuan
2016-11-06 14:16:29 +08:00
第一次提交代码,是去年写的爬虫
https://github.com/laoyuan/wanggoumiji
laoyuan
2016-11-06 15:54:44 +08:00
已经发现了一种模式,会场页
<div class="J_tabs 前一个 <textarea class="J_dynamic_data" 里面就是秒杀商品数据

例: https://pages.tmall.com/wow/act/16495/industry_1179
laoyuan
2016-11-06 16:01:43 +08:00
又发现一种模式
data-mod-name="mui/zebra-act-ms-240x240/index-pc" data-config="

例: https://pages.tmall.com/wow/act/16495/industry_309
qcloud
2016-11-06 16:23:33 +08:00
正在看直播, 2333 ,找半天找不到你这个帖子,刚才看你发帖子,本想你刚发,我就来评论的,结果到现在才找到这个帖子。
m939594960
2016-11-06 18:37:27 +08:00
去年就看你直播来着
a570295535
2016-11-06 22:55:33 +08:00
太卡了,虽然我看不懂,但我鱼丸 19345
laoyuan
2016-11-06 23:00:46 +08:00
@a570295535 好像无线路由器有点问题,我再买个新的。好在今年写的开源了,想用的可以直接看代码。

今天就播到这里了,明天把 pyspider 部署到生产环境开始跑,然后写个网站把抓到的秒杀商品列出来方便大家看。
Dirlllee
2016-11-07 19:28:15 +08:00
用哪些工具
la0wei
2016-11-07 23:42:58 +08:00
错过直播了怎末办
laoyuan
2016-11-07 23:54:19 +08:00
@la0wei 有代码啊,我再提交下
twc731
2016-11-08 10:13:52 +08:00
错过了
twc731
2016-11-08 10:14:28 +08:00
希望大神以后可以录一份录像,能学习一下
laoyuan
2016-11-08 10:46:53 +08:00
有代码看啥录像啊。爬虫跑了一晚上数据是这样的:
双十一总共 400 个会场页面,涉及 5700 家店、 12000 件商品,其中秒杀商品大概有 500 到 1000 件,我打算直接跑商品页面来识别秒杀,不在会场识别模式了。
RobertYang
2016-11-08 15:34:53 +08:00
无话可说只有 6666
Vizogood
2016-11-09 07:44:19 +08:00
我只能送你 6666 辛亏没去阿里 233
ixinshang
2016-11-10 01:05:43 +08:00
牛逼
kang000feng
2016-11-10 01:41:44 +08:00
@laoyuan 大神, 网站写好了吗, 期待商品列表挂出来,谢谢!
laoyuan
2016-11-10 08:39:36 +08:00
@kang000feng 看看今天能挂出来吧,就一个列表页面应该可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/318459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX