开始要读一遍 scrapy 的代码了,大家说 20000 行代码,大概多久能读完?

2016-05-12 23:09:52 +08:00
 alexapollo

之前写过一个 scrapy-examples 项目( https://github.com/geekan/scrapy-examples
里面自己造了模板化抽取的轮子。但用 scrapy 来实现还是不伦不类,有点想自己做个大轮子(爬虫)。 各位觉得大概多久可以读完代码?实现一个 scrapy 大概又要多久呢?

5691 次点击
所在节点    程序员
18 条回复
yangxin0
2016-05-12 23:27:58 +08:00
20k 行算小型项目,正常情况 1 各月要看完吃透
zhtsuc
2016-05-13 00:45:09 +08:00
厉害
alexapollo
2016-05-13 00:48:29 +08:00
@yangxin0 一天 1000 行?
ayaseangle
2016-05-13 02:35:29 +08:00
想 python 这类动态语言表达力太强,代码量小并不代表好读,有时候有进坑。。。
kslr
2016-05-13 03:00:48 +08:00
@alexapollo 读的思想,而不是砖头怎么摆的
Dannytmp
2016-05-13 06:14:59 +08:00
没有必要把每一行都看懂吧
haogefeifei
2016-05-13 09:18:30 +08:00
从使用角度去读很快的。。
yangxin0
2016-05-13 10:08:20 +08:00
@alexapollo 把握住要脉络,仔细看核心模块,其他的需要的时候再看
nivan
2016-05-13 10:27:31 +08:00
我看 LZ 头像的感觉,大概是读不完了!😄
Yc1992
2016-05-13 10:28:30 +08:00
难道单元测试的代码你也要读么。。。

话说只看 scrapy 肯定不行吧, twisted 不看一下也是不行的。
xiongxin8802
2016-05-13 10:35:47 +08:00
@Yc1992 不读单元测试,不知道有什么功能吧,我现在也在疑惑读别人的代码,是不是要先读单元测试
veezzz
2016-05-13 11:46:14 +08:00
最近自己也在造爬虫轮子,有兴趣可以交流下
xiaket
2016-05-13 12:08:32 +08:00
用过, API 实在不友好, 如果有选择的话, 可能读 @binux 的 pyspider 会更好.
andong777
2016-05-13 13:25:51 +08:00
可以考虑读一下早期的版本,比如 0.1 。早期版本比较精简,都是核心代码
28ms
2016-05-13 14:24:01 +08:00
scrapy 框架的核心是基于 Twisted 框架,其本身并没有什么复杂的东西, twisted 才是关键。
alexapollo
2016-05-13 20:54:10 +08:00
@Yc1992
@xiongxin8802 同感,先读测试效率高
alexapollo
2016-05-13 20:54:37 +08:00
@28ms Twisted 复杂吗?
@Yc1992
wsy2220
2016-05-13 23:31:45 +08:00
不是每一行都要看的...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/278302

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX