Scrapy: 爬取豆瓣书籍 //以及几个简单实例

2014-02-01 12:21:30 +08:00
 alexapollo
源码: https://github.com/geekan/scrapy-examples
这个工程是为了 http://www.oschina.net/code/snippet_1026739_25291 的改写而试手的作品,依赖Scrapy爬虫框架。
现在有几个基本的爬虫:douban书籍爬取,linkedin的公共资料爬取,以及几个很有用的入门tutorial。
截图: https://raw2.github.com/geekan/resource_collection/master/image/doubanbook.jpg
8047 次点击
所在节点    程序员
11 条回复
faceair
2014-02-01 12:23:14 +08:00
要做图书馆数据整合,刚巧用得上,谢~
alexapollo
2014-02-01 12:28:06 +08:00
@faceair 哈哈~ 大恩不言谢,红包呢!
alexapollo
2014-02-01 21:19:22 +08:00
更新了hrtencent的爬取~
lincanbin
2014-02-01 23:31:39 +08:00
上个月写过一个爬豆瓣读书的,为了整合一个图书馆系统。
豆瓣读书有一个现成的API,Response是JSON格式,非常方便。
alexapollo
2014-02-02 00:31:58 +08:00
@lincanbin 多谢回复。有看过API,但这个工程也仅是为了练Scrapy :)
bearcat001
2014-02-02 09:55:38 +08:00
你用递归了吗?scrapy如何做递归比较舒服...?
我一直再用yield Request,可控性不高
alexapollo
2014-02-02 10:43:29 +08:00
@bearcat001 递归的目的是?爬整站吗?我原来写了一套递归系统,但感觉Rule还挺好用,就都废弃了
funcman
2014-02-03 02:50:43 +08:00
豆瓣的数据根本不值得爬。
alexapollo
2014-02-03 10:16:46 +08:00
@funcman Example而已。。
funcman
2014-02-03 13:44:38 +08:00
@alexapollo 是对想弄图书馆数据的一楼说的。
robertlyc
2014-02-04 12:21:22 +08:00
豆瓣有api提供

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/98793

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX