Scrapy: 爬取豆瓣书籍 //以及几个简单实例

2014 年 2 月 1 日

alexapollo

源码： https://github.com/geekan/scrapy-examples
这个工程是为了 http://www.oschina.net/code/snippet_1026739_25291 的改写而试手的作品，依赖Scrapy爬虫框架。
现在有几个基本的爬虫：douban书籍爬取，linkedin的公共资料爬取，以及几个很有用的入门tutorial。
截图： https://raw2.github.com/geekan/resource_collection/master/image/doubanbook.jpg

8768 次点击

所在节点

11 条回复

faceair

2014 年 2 月 1 日

要做图书馆数据整合，刚巧用得上，谢～

alexapollo

2014 年 2 月 1 日

@faceair 哈哈~ 大恩不言谢，红包呢！

alexapollo

2014 年 2 月 1 日

更新了hrtencent的爬取~

lincanbin

2014 年 2 月 1 日

上个月写过一个爬豆瓣读书的，为了整合一个图书馆系统。
豆瓣读书有一个现成的API，Response是JSON格式，非常方便。

alexapollo

2014 年 2 月 2 日

@lincanbin 多谢回复。有看过API，但这个工程也仅是为了练Scrapy :)

bearcat001

2014 年 2 月 2 日

你用递归了吗？scrapy如何做递归比较舒服...?
我一直再用yield Request，可控性不高

alexapollo

2014 年 2 月 2 日

@bearcat001 递归的目的是？爬整站吗？我原来写了一套递归系统，但感觉Rule还挺好用，就都废弃了

funcman

2014 年 2 月 3 日

豆瓣的数据根本不值得爬。

alexapollo

2014 年 2 月 3 日

@funcman Example而已。。

funcman

2014 年 2 月 3 日

@alexapollo 是对想弄图书馆数据的一楼说的。

robertlyc

2014 年 2 月 4 日

豆瓣有api提供

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.