手把手教你写煎蛋妹子图爬虫。。。

2015-02-16 13:21:14 +08:00
 jason52
缘起
====

爬虫从妹子图练起最好了,煎蛋防护系统比较弱,你要一开始上手大众点评,豆瓣,那好了,先上淘宝买代理吧。。。。

而且这个例子好好啊,可以直接从正则表达式匹配技术讲起,在用bs,再到pyquery。。。。

顺带讲讲fiddler,firebug之类的。。。

@jookr 大叔 @ 你了!!!
===

第一次录screencast,真是巨麻烦。而且质量还不高。。演练没到位。。。

destroy all software能在15分钟左右制作出质量这么高的视频真心不容易,自己做一次就知道了。

视频链接: http://pan.baidu.com/s/1i3mXwBN

效果链接: http://v2ex.com/t/171077
这是无聊图的,妹子图现在都很黄很暴力了,不和谐~~
23287 次点击
所在节点    分享创造
41 条回复
lightryanking
2015-02-16 23:12:28 +08:00
= =你们玩的太高级了。。。不会python啊
以前火车头采过1024
Twinkle
2015-02-16 23:13:48 +08:00
写的第一个爬虫也是爬妹子图,可谓动力十足 >.>
aaaa007cn
2015-02-17 01:17:06 +08:00
@jason52
我觉得简单的用用 urllib、urllib2 差不多
要是 cookie、referer、ua、代理一起上
我宁可在 python 中调用 curl 也不想和各种 opener 去搅
直到遇到了 requests
但是 curl 直接支持 socks 代理在某些情况下还是要比 python 方便点
gyorou
2015-02-17 16:54:09 +08:00
http://blog.nigbee.pink:3000/ 这个行么。

打开前先确定周围没人特么。
url
2015-02-17 21:15:19 +08:00
@gyorou 你好厉害
yepinf
2015-02-18 08:49:26 +08:00
“先上淘宝买代理吧。。。。” 求个靠谱链接
jimmy66
2015-02-20 19:42:41 +08:00
re.findall 返回的是list不是元组。。原谅我的强迫症吧
jason52
2015-02-20 20:58:48 +08:00
@jimmy66 对对对,偶想当然了~~~
Delbert
2015-02-26 10:40:40 +08:00
你视频里面是 cat pic |sed 's/"/\n/g'| grep 'http.*(gif|jpg)'
但是我需要改成 cat pic |sed 's/"/\n/g'| grep 'http.*[gif|jpg]'
才可以正常正则筛选。
是我和你grep的版本不同吗?
wind3110991
2015-04-01 19:49:25 +08:00
mark下先~
mingyun
2015-04-05 18:00:39 +08:00
@gyorou 就等你了,哈哈
ivanchou
2015-04-21 12:32:50 +08:00
百度云链接失效了?
plantparknet
2015-07-12 03:56:48 +08:00
现在这种方法失效了,必须要用header~~
plantparknet
2015-07-12 04:21:55 +08:00
jandan增加反爬虫了。。。
jason52
2015-07-12 08:12:38 +08:00
@plantparknet 大概练手的家伙太多了。。。
plantparknet
2015-07-12 12:58:13 +08:00
@jason52 终于有机会需要把教程更新下啦~~
jason52
2015-07-12 14:06:30 +08:00
@plantparknet 最近忙成狗,应该暂时不更新啦~~~不过要加个header你可以仿照后面几课试试。~~~
Want
2016-08-15 23:29:47 +08:00
你的视频链接掉了
···
快点更新啊
ibiner
2016-08-16 04:09:23 +08:00
不错。
1 呢?
kela
2016-08-16 23:27:10 +08:00
求视频

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/171302

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX