请问对于初学者来说一开始买哪本书来看比较适合,到能写出一个爬虫的过程会很难吗?
不好意思来伸手党一下,谢谢了。
1
xunyu Dec 31, 2014
一周,自己用urllib实现
|
2
Colorful Dec 31, 2014
爬虫到底是什么,不太明白
|
3
gangsta Dec 31, 2014 时间肯定因人而异啊,但是第一个课后大作业好像是豆瓣福利组妹子图...
|
7
tabris17 Dec 31, 2014
2小时吧
|
8
14 Dec 31, 2014 via Android
|
9
ChanneW Dec 31, 2014
urllib2 urllib3 requests pyquery ,看完这四个就可以了.
|
10
ericls Dec 31, 2014 via Android
一天吧
|
11
fooevr Dec 31, 2014
一天
|
12
nilai Dec 31, 2014
scrapy 1小时
|
13
sandideas Dec 31, 2014 via Android
看你爬什么。。百度贴吧这种的一个小时就能爬了。
|
15
ilili Dec 31, 2014
刚开始学习Python到现在两年了我还是写不出,楼主不要像我这样……
|
16
jianghu52 Dec 31, 2014
这个时间是要看你有什么基础。如果你之前有过web开发经验,html/css,cookie session 什么随意玩玩的话,我估计爬虫你一天就搞定。要是你一点基础没有,哼哼。像我,半个月了,只会扒代码 %>_<%。
|
17
decken Dec 31, 2014
|
18
cloudyplain Dec 31, 2014
一下午,参考了nodejs实战,学习了nodejs爬一个博客 python应该差不太多
|
20
aibay Dec 31, 2014
这个要看你自己的情况。如果只是爬某个数据,其实不用花时间学,找个源码自己攒一个也是能行的。我最开始只是想爬淘宝二手,花了一天看了下基础的东西然后就修改别人的代码实现了这个目标。如果你打算学Python,廖雪峰的教程值得推荐。楼上有地址了。
|
21
happywowwow Dec 31, 2014
有驱动就快
比如爬个感兴趣的网站的数据? 比如 爬1024什么的 |
22
Exin Dec 31, 2014
关注下,目前会前端基础和c++,python没学过
|
23
ming2050 Dec 31, 2014 via Android
如果简简单单的,一天就差不多了,就是个深度搜索。如果是复杂的,可以参考一些开源的搜索框架,那可不是一年半载能完成的。
|
25
realityone Dec 31, 2014
..简单的爬虫抄着别人的demo就出来了。。
|
26
imn1 Dec 31, 2014
写好爬虫不仅是python
至少还要有http前端基础——知道DOM可用bs或lxml+xpath,大量建议正则 要懂http协议——破各种防盗链和cookies 可能还需要知道socket——至少知道errno的意思,不然搞不清程序没错却抓不到的原因 更高级的还要知道怎么用野鸡(大量肉鸡),以及任务分割,不然被封只是迟早的事 如果说只是能用,找现成的改改很简单 |
27
xidianlz Dec 31, 2014
居然没人推荐神器scrapy
|
28
nj OP 非常感谢各位建议。
我的目的不是写一个爬虫,是想弄懂,明白一些,还想学习 Python 。 之前看过 笨方法学 Python ,也有过编程基础。 |
29
lincanbin Dec 31, 2014
用requests,花了一天吧,前面半天看了下Python语法,然后就是读requests和re的文档了。
除了语法与类的结构外,和其他语言写爬虫没有任何区别。 |
30
ryd994 Dec 31, 2014 via Android
说实话我觉得Python用来学习并不合适。对有编程经验的人来说却非常顺手。
爬虫的话不建议直接urllib3,因为管理cookie之类的其实还是麻烦。requests会比较方便,毕竟你只关注数据,底层的一般用不上。 解析可以beautifulsoup,个人没用过,但是之前别人说到,看了一下感觉对新手很友好。数据少的话直接正则 socket的话不怕,现查谷歌就可以了 至于肉鸡……Python就算了吧 |
31
icedx Dec 31, 2014 via Android
一天Urllib2+BeautifulSoup4
|
32
zhurenhu Dec 31, 2014 |
33
thanksir Dec 31, 2014
一天足够,话说刚开始学python的时候也是想玩爬虫
|
34
sosozzzx May 10, 2016
推荐使用神箭手云爬虫( http://www.shenjianshou.cn ),完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,常见的编写爬虫过程中会遇到的问题都由神箭手帮你解决。 demo 源码地址: https://github.com/ShenJianShou/crawler_samples |