煎蛋妹子图爬图工具

之前有朋友推荐了煎蛋这个网站的妹子图，想到肯定有一大堆同志在邪恶这些图片的，于是就有想法想写一个爬图片的工具。
拖延症有点伤不起，这段时间一直没什么心思，回去都在玩游戏，只能在上班时间，抽点时间搞定了。
代码放在github里面。注释都还蛮清楚的，不多说，同志们自己看代码。执行一下就会爬了，注意，爬图的时间适合调整一下，小心被屏蔽IP哦。同志们也要保重身体啊。哈哈！
github代码地址：
https://github.com/cxshun/jiandan-xxoo-crawler

请注意：代码用python搞定，要使用lxml第三方组件。同志们有bug要记得反馈啊，哈哈。

cxshun

2013-09-01 18:41:23 +08:00

@aisk 哈哈，这个就简单啦，比煎蛋简单多了，等其他有空的XD弄一个。
@xavierskip 哈哈，中国的特色，必须的。
@jason52 这个牛叉。
@SharkIng 确实，变化太大，库的开发者也比较痛苦，也只能怪python自己不争气，说改就改。

tedd

2014-05-14 11:28:07 +08:00

@cxshun 煎蛋的图不是都链接的是weibo的吗？爬煎蛋图其实也就就是抓到每页的html，实际下载图片都是weibo来的（weibo流量），请问这样会对煎蛋服务器造成压力吗？

Ljungqvist

2015-02-17 11:20:19 +08:00

执行 img_links = re.findall("http.*jpg",html_content)后提示错误：
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 95: ordinal not in range(128)

cxshun

2015-02-17 14:15:43 +08:00

@tedd 照理应该不会，但还是调低点频率的好，毕竟煎蛋免费的，估计也哆呛的。
@Ljungqvist 印象中貌似没有这样的代码，看样子应该是编码的问题，在文件头部指定下#encoding:utf-8试试。如果再不行，那就可能是网页编码的问题，在网上找找，应该会有对应的文章的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/80470

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.