煎蛋妹子图爬图工具

2013-08-28 10:23:01 +08:00
 cxshun
之前有朋友推荐了煎蛋这个网站的妹子图,想到肯定有一大堆同志在邪恶这些图片的,于是就有想法想写一个爬图片的工具。
拖延症有点伤不起,这段时间一直没什么心思,回去都在玩游戏,只能在上班时间,抽点时间搞定了。
代码放在github里面。注释都还蛮清楚的,不多说,同志们自己看代码。执行一下就会爬了,注意,爬图的时间适合调整一下,小心被屏蔽IP哦。同志们也要保重身体啊。哈哈!
github代码地址:
https://github.com/cxshun/jiandan-xxoo-crawler

请注意:代码用python搞定,要使用lxml第三方组件。同志们有bug要记得反馈啊,哈哈。
12546 次点击
所在节点    分享创造
26 条回复
xavierskip
2013-08-31 23:16:09 +08:00
我写过一个抓取虎扑相册的。恩,最黄的篮球网站。。。
yipianfengyeqing
2013-09-01 02:22:26 +08:00
宅男福利
cxshun
2013-09-01 18:41:23 +08:00
@aisk 哈哈,这个就简单啦,比煎蛋简单多了,等其他有空的XD弄一个。
@xavierskip 哈哈,中国的特色,必须的。
@jason52 这个牛叉。
@SharkIng 确实,变化太大,库的开发者也比较痛苦,也只能怪python自己不争气,说改就改。
tedd
2014-05-14 11:28:07 +08:00
@cxshun 煎蛋的图不是都链接的是weibo的吗?爬煎蛋图其实也就就是抓到每页的html,实际下载图片都是weibo来的(weibo流量),请问这样会对煎蛋服务器造成压力吗?
Ljungqvist
2015-02-17 11:20:19 +08:00
执行 img_links = re.findall("http.*jpg",html_content)后提示错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 95: ordinal not in range(128)
cxshun
2015-02-17 14:15:43 +08:00
@tedd 照理应该不会,但还是调低点频率的好,毕竟煎蛋免费的,估计也哆呛的。
@Ljungqvist 印象中貌似没有这样的代码,看样子应该是编码的问题,在文件头部指定下#encoding:utf-8试试。如果再不行,那就可能是网页编码的问题,在网上找找,应该会有对应的文章的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/80470

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX